第31章稳定匹配（曹乾2016）

稳定匹配 2012年诺贝尔经济学奖授予了两位经济学家：劳埃德·夏普利，埃尔文·罗斯贡献。匹配理论与匹配算法涉及使用非合作博弈论、合作博弈论以及机制设计中的等量（equalmeasure）概念。在本章，我们介绍匹配算法，并且讨论它们与博弈论的联系。 31.1匹配问题匹配问题是现实生活中的一类常见问题，它将一组资源（个体）配置给另外一组资源（个体）。常见的例子有：市场中买者与卖者的匹配；资源与任务的匹配；买房人与房子的匹配；医学毕业生与医院的匹配；学生与学校的匹配；工程类毕业生与公司的匹配；广告客户与搜索引擎网页上广告位的匹配等。有些匹配问题甚至具有深远的社会影响，例如肾脏（人体器官）与贫困患者的匹配。匹配的实现方式要能满足以下条件：一是尊重个体的偏好；二是（以某种合理方法衡量的）社会福利最大。乍一看，这个问题似乎很简单，其实不然。当匹配问题涉及的资源（个体）数量众多，而且存在着一些必须满足的现实约束条件时，这个问题变得很复杂，以至于找到可行解都很困难，更不用说找到最优解了。匹配问题的任何解都必须满足一个关键要求，这就是稳定性（stability）。稳定解的粗略定义如下：给定一个解，如果我们已无法通过再分配或继续交易来改进它，那么这个解就是稳定的。夏普利与罗斯在匹配问题的研究和应用上做出了杰出的开创性贡献，他们的工作相互补充：1960年代，夏普利考察了匹配理论背后的深层次的问题，并且提出了极其漂亮的理论解决方法；1980年代，罗斯发现了将抽象的夏普利理论应用到

实践问题的机会，并且对一些实践问题给出了巧妙的更优的解决方法。1990年代以来，罗斯以及其他研究者扩展了匹配理论，使其包含诸如匹配市场用户的策略型操纵行为等现实议题。当前，匹配理论与匹配市场不仅是经济学的活跃的研究议题，也是计算机科学、互联网广告和社会计算的活跃的研究议题。埃尔文·埃廖伊·罗斯（AlvinElliotRoth）生于1951 年12月19日。他的第一个学位是哥伦比亚大学的运筹学学士学位。1973年和1974年，罗斯在斯坦福大学分别获得运筹学硕士学位和博士学位。1975一1982年，他任教于伊利诺伊大学；1982—1998年，他效力于匹兹堡大学。1988年，罗斯进入哈佛大学，担任经济学讲席教授以及商业管理荣誉退休教授。2013年后，他担任斯坦福大学经济学讲席教授。罗斯获奖无数，包括斯隆（AlfredP.Sloan）奖、古根海姆（Guggenheim）奖、美国艺术与科学院院士、美国国家经济研究局和计量社会协会成员。除了匹配市场[1]，罗斯对博弈论与实验经济学也做出了开创性的贡献。其中一个重要贡献为把夏普利值刻画为合作博弈空间中的风险中性效用函数。罗斯对实验经济学的贡献，得到诺贝尔奖委员会的认可，并且被作为科学背景予以介绍。2]罗斯的工作在本质上说明了，通过谨慎且熟练地设计实验，人们能大幅提高博弈论的解释能力和预测能力。稳定匹配 31.2匹配算法在本节，我们主要讨论大学录取新生问题，对此，GaleandShapleyL3设计了他们的著名算法。口大学录取新生问题假设有m所大学，n个新生，其中n≥m。每所大学录取的新生数量有上限或配额。每所大学对学生也有严格排序（也称为偏好序）。类似地，每个学生对大学也有严格排序。这里的问题是根据一定明确定义的标准（例如稳定性、最优性、激励相容性等），将学生配置给大学。在本章，我们交替使用配置、指派、匹配，即将它们作为同义词。例子假设有五个学生1，2，3，4，5，两所大学A和B。假设学生对大学的偏好序如下：令大学对学生的偏好序如下：

«««« 假设每所大学最多能录取3个学生。配置可用二元组集合表示，例如配置α可以为 α1={（1,A)，(2，B)，(3，A),(4，B),(5,A)} 另外一个配置可能为 α2={（1,B)，（2，A),（3，A)，(4，B)，(5，B)} 第三个配置可能为 α3={（1,A)，（2，A)，（3，A)，（4，B)，(5，B)} 口稳定性、最优性以及激励相容性我们现在讨论大学录取新生匹配算法需要满足的三个重要性质：稳定性、最优性以及激励相容性。定义31.1（稳定配置）给定一个配置，如果即使学生1偏好大学B胜于A且大学 B偏好学生1胜于2，它仍含有二元组（1，A）以及（2，B），那么我们说这个配置为不稳定的（unstable）。如果一个配置不是不稳定的，那么它是稳定的（stable）。注意，在上面的定义中，如果我们将学生1配置给大学B，那么1和B的状况都严格变好。用合作博弈论语言表达，两元素联盟（1，B）阻止了原来的配置。稳定配置不能被任何两元素联盟所阻止。所有稳定配置组成的集合是潜在配置博弈的核。这里的博配置博奔实际上是一个伴随不可转移效用（NTU）的博弈。奔论我们关注的稳定配置具有下列特征：在这个配置下，每个学生和每所大学的状况，与与他（它）在任何其他稳定配置下的状况一样好。也就是说，我们寻找的稳定配置，要机制能使每个学生匹配的大学至少与任何其他配置下该学生匹配的大学一样好，而且使每个设计好”是指偏好序意义上的好，即》。根据稳定配置，我们得到下列定义。定义31.2（最优配置）给定一个稳定配置，如果在这个配置下，每个学生的状况至少与他在任何其他稳定配置下的状况一样好，那么我们说这个稳定配置是对学生最优的（studentoptimal）；如果在这个配置下，每所大学的状况至少与它在任何其他稳定配置下的状况一样好，那么我们说这个稳定配置是对大学最优的（collegeoptimal）。对学生最优的配置，未必对大学最优；对大学最优的配置，未必对学生最优。可以证明，如果存在着对学生（大学）最优的配置，那么它是唯一的。定义31.3（激励相容配置）给定一个稳定配置，如果每个学生（大学）报告他）学生（大学）激励相容的。回顾一下激励相容性的更强版本，即优势策略激励相容性（DSIC），在这里表示每个学生（大学）如实报告是一个最优反应，不管其他学生（大学）如何报告。口婚姻问题婚姻问题是大学录取新生问题的一种特殊情形，在这里学生数等于大学数，即

n=m。为简单起见，我们研究婚姻问题，因为这个问题的很多结果可以自然推广到大学录取新生问题。在本节的余下部分，我们假设有n个学生和n所大学，每个学生必须匹配给一所大学；每所大学至多匹配给一个学生。我们用数字1，2，表示学生，用大写字母A，B，··表示大学。例31.1（婚姻问题）这个例子改编自GaleandShapleyL3]。考虑三个学生（1，2 和3）以及三所大学（A，B和C），他（它）们的偏好如下：对于这个情形，显然有六个匹配（配置），它们分别是：（1,A)，(2,B)，(3,C)}，{（1,A)，(2,C)，（3,B)}，{(1,B)，（2，A)，（3,C)} {(1,B)，(2，C)，（3，A)}，{（1,C)，(2,A)，（3,B)}，{（1,C)，(2,B)，(3,A)} 可以看出，在上述六个配置中，稳定的配置有： {（1,A),(2,B)，(3,C)}，{（1,B)，(2,C)，(3,A)}，{(1,C)，(2，A)，(3,B)} 容易验证，配置{(1，A)，（2，B)，（3，C)}对学生最优，而配置{（1，C)，（2，A)，（3，B)}对大学最优，配置{（1，B)，（2，C)，（3，A)>不是对学生最优的，也不是对大学最优的。另外，在前面的六个配置中，下列配置是不稳定的：第 {(1,A)，(2,C)，（3,B)}，{（1,B)，（2,A)，（3,C)}，{（1,C)，(2,B)，(3,A)} 章为了看清配置{（1，A），（2，C)，（3，B））是不稳定的，注意到联盟{3，A）能阻止这稳个配置：（a）对于学生3来说，（3，A）比（3，B）更好，因为他偏好A胜于B；定匹配（b）对于大学A来说，（3，A）比（1，A）更好，因为大学A偏好学生3胜于1。类似配地，读者可以验证联盟{2，C}能阻止{（1，B），（2，A)，（3，C）}，联盟{1，B}能阻止{（1，C)，（2，B)，（3，A)}。口婚姻问题的延迟接受算法我们现在终于可以介绍GaleandShapleyl3J提出的婚姻问题算法了。这个算法称为延迟接受（deferredacceptance）算法，原因稍后就会明朗。这个算法有两种版本： ·学生“求婚”版本； ·大学“求婚”版本。我们仅介绍学生“求婚”版本算法。这个算法关于阶段（stage）迭代。（1）在阶段1，每个学生向他最喜欢的大学提出申请。一些大学可能收不到任何申请；另外一些大学可能收到一个或多个申请。如果某所大学收到两个或更多申请，那么它仅留下它最偏好的学生，并且拒绝所有其他申请该校的学生。这个被留下的学生仍需要排队等候（大学延迟录取（接受）该学生，因为它预期可能会有它更喜欢的学生出现）。（2）在阶段2，每个被拒绝的学生向他第二喜欢的大学提出申请。再一次地，如果某所大学收到两个或更多申请（包括任何已被它纳人排队等候名单的学生对它的申请），

那么它仅留下它最偏好的学生，并且拒绝所有其他申请该校的学生。注意，在这个阶段，大学在挑选学生时，需要考虑已列人其排队等候名单的学生。（3）在阶段3、阶段4等，按照阶段2的方式进行。本算法相同，只不过学生与大学的角色互换了。例31.2（延迟接受算法）这个例子来自文献[2]。考虑四个学生（1、2、3和4）和四所大学（A、B、C和D），他（它）们的偏好如下： ««« 假设学生“求婚”。于是： ·在阶段1，学生1、2和3向大学A提出申请，因为他们都最喜欢大学A，而学生4则向大学C提出申请，于是大学C将学生4纳人排队等候名单。大学A拒绝学生1 和2，而将学生3纳人排队等候名单。 ·在阶段2，被拒绝的学生1和2分别向大学B和C提出申请，因为大学B和C在学生1和2的偏好序上排在第二位。现在，大学C面对两个申请者：一是学生2；二是已被它列人排队等候名单的学生4。于是，大学C拒绝学生4而将2纳入排队等候名博单。另外，大学B将学生1纳入排队等候名单。奔论与机制 ·在阶段3，学生4向大学D提出申请。现在，大学A、B、C和D各自都有一个申请，因此算法终止，由此得到的配置为{（1，B)，（2，C)，（3，A)，（4，D）}。可制以验证，这个配置对学生最优。设在大学求婚版本算法中，容易看到它给出的配置为{(1，C)，（2，D），（3，A），计（4，B）}。可以验证，这个配置对大学最优。假设学生和大学都是策略型的，因此他（它）们可能不如实报告自己的偏好。作为一个说明性的例子，假设学生4是策略型的，而其他学生和所有大学都如实报告。假设学生4将自己的偏好谎报为C>D>A>B，而不是报告他的真实偏好C>D>B>A。如果我们使用大学“求婚”版本算法，那么我们只需要改变学生4的偏好即可。我们由此得到的配置为{(1，B)，（2，C)，（3，A)，（4，D)}，这与所有学生如实报告情形下得到的配置{(1，C)，（2，D)，（3，A)，（4，B)）差别很大。事实上，学生4的谎报行为将对大学最优的配置转变为对学生最优的配置！这说明大学“求婚”版本算法对学生不是激励相容的。然而，可以证明，大学“求婚”版本算法对大学是优势策略激励相容的（DSIC)。类似地，学生“求婚”版本算法对学生是DSIC的，对大学不是激励相容的。口口延迟接受算法的重要性质我们现在不加证明地给出延迟接受算法的一些重要性质。（））

（学生）“求婚”的次数不超过一次。 ·学生“求婚”版本和大学“求婚”版本算法都能得到唯一的稳定配置。学生“求婚”（大学“求婚”）版本算法得到的是对学生（大学）的最优配置。配置最优性的证明可以参考GaleandShapley[3]。 ●算法终止前的最大阶段数为n²一2n十2。因此，盖尔-夏普利（Gale-Shapley）算法有最坏情形二次（quadratic）时间复杂性。））但对大学（学生）不是激励相容的。 ·盖尔-夏普利算法可以自然地推广到大学录取新生问题。 ·可以证明，配置博弈（大学录取新生问题背后的伴随不可转移效用的博弈）的核非空（参见Shapley and Shubik[4]）。这个结果保证了稳定配置在一般环境中的存在性。口房屋配置问题延迟接受算法是双边匹配问题领域中的开创性贡献，这里的“双边”强调每一边对对方都有偏好，例如在大学录取新生问题中，大学对学生有偏好，学生对大学也有偏好。现实生活中还存在着另外一类重要问题，这就是所谓的房屋配置（houseallocation）问题。在这类问题中，一组参与人互相交换不可分割的物品，这里的交换是单纯以物易物，不涉及旁支付（sidepayments），即不涉及货币等形态的补偿。参与人对物品有偏好，而且有自已的物品。一个直接的例子是一组租房者在寻找房屋，他们对房屋有自己的偏好。但房屋对租房人没有任何偏好。Shapley andScarf5]在理查德·盖尔（RichardGale）工作的基础第上，设计了所谓的首位交易循环（toptradingcycle）算法，用来求这类问题的解。这个算章法及其变种已被用到一系列问题上，其中就包括肾脏交换问题。稳定匹 31.3市场匹配配延迟接受算法与首位交易循环算法是匹配领域的两个关键算法；它们已被广泛研究，并且已被应用到很多现实问题。学者已针对各种匹配问题设计了多种算法，与此同时学者还对这些算法进行了分析，目的在于得到它们理论上的性质（例如，稳定性、最优性和激励相容性）。夏普利在1950年代和1960年代的工作是合作博弈论的基石；夏普利与其他博弈论学者使用合作博弈论解决了匹配领域中的若干中心问题。[1] 罗斯在1980年代发现夏普利的理论可以应用到现有市场，例如美国国民匹配项目（NationalResidentsMatchingProgram，NRMP），这是一个将医学毕业生与医院进行匹配的市场。罗斯和他的同事通过一系列实证研究和实验室实验，发现稳定性是任何匹配市场成功和存续的最关键的要求。在研究过程中，罗斯及其同事能够对现存匹配市场再设计，并且改进它们的绩效。1990年代，罗斯及其同事使用包括博弈论在内的新理论工具，研究了匹配市场可能存在的策略型操纵行为。纽约和波士顿等城市使用这种方法来匹配学生和学校。更加荣耀的时刻到来了，1990年代和21世纪初，这种方法被成功地应用于人体器官（尤其是肾脏）供体与受体之间的匹配。

31.4小结与参考文献本章仅考察了匹配算法的一些基本但重要的层面，而且我们考察的仅是非策略型参与人的情形（即未涉及市场操纵等议题）。匹配议题涉及非合作博弈论、合作博弈论以及机制设计。本章主要内容如下： ·我们简单介绍了大学录取新生问题、婚姻问题以及房屋配置问题。在大学录取新生问题中，我们有m所大学和n个学生（通常n≥m），而且大学和学生对对方都有偏好。婚姻问题是大学录取新生问题的特殊情形，此时n=m。在房屋配置问题中，偏好是单方面的。 ●我们讨论了大学录取新生问题的著名的盖尔-夏普利（Gale-Shapley）算法，并且介绍了这个算法满足的一些有趣的性质。 2012年的诺贝尔经济学奖引发了人们对匹配理论与匹配市场的兴趣。诺贝尔奖官方网站对此做了科学背景介绍。2]RothandSotomayor[1]是这方面的权威著作，它收录了截至1990年的重要结果。关于延迟接受算法，读者一定要参考Gale and ShapleyL3] 这篇原始文献。参考文献博奔论与机制沿 [1]A.E.Rothand M.Sotomayor.TwoSidedMatching:A Studyin GameTheo- reticModeling and Analysis.EconometricSocietyMonographSeries,Cambridge Uni- versityPress,1990. [2]TheEconomic SciencesPrize Committee.StableMatching:Theory,Eui- 设计 dence,andPractical Design—The Sveriges RiksbankPrizeinEconomicSciencesin MemoryofAlfredNobel2012:ScientifcBackground.Tech.rep.TheNobelFoun- dation,Stockholm,Sweden,2012. [3] D. Gale and L. S. Shapley. “College admissions and the stability of marriage”. In:TheAmericanMathematicalMonthly69(1)(1962),pp.9-15. [4]Lloyd S. Shapley and Martin Shubik.“The assignment game I: the core”.In: International Journalof GameTheory 1(1)(1971)，pp.111-130. [5] Lloyd S. Shapley and Herbert Scarf. “On cores and indivisibility”. In: Jour- nalofMathematicalEconomics1(1974),pp.23-37. 31.5习题（1）证明在大学录取新生问题中，对学生最优的配置（对大学最优的配置）如果存在，必定唯一。（2）在大学录取新生问题的例子中，分别考察配置α1，α2与α3的稳定性、最优性

以及激励相容性。（3）在例31.1（三个学生和三所大学匹配的问题）中，证明配置（（1，A），（2，B)， (3，C)}，{(1，B)，（2，C)，（3，A)}，{（1，C)，（2，A)，（3，B)}是稳定的，而配置 {（1，B)，（2，A)，（3，C)}，{(1，C)，（2，B)，（3，A)}是不稳定的。接受算法。（5）在例31.2中，对学生4谎报他的偏好序的情形使用延迟接受算法。（6）证明在延迟接受算法中，最大阶段数为n²一2n十2，其中n是学生数（也是大学数）。（提示：考察最差情形环境。）（7）考虑下列婚姻问题，这里有四个学生（1、2、3和4）以及四所大学（A、B、C 和D)，他（它）们的偏好为： ««« «< 对这个问题应用盖尔-夏普利算法。你能观察到什么结果？（8）如何将婚姻问题的盖尔-夏普利算法推广到大学录取新生问题？（9）（编程题）实施盖尔-夏普利算法、首位交易循环算法以及文献报道的其他匹配算法。稳定匹配