财新传媒
  1. 0

法律经济学第三课:博弈的奥秘

2017年09月26日 17:03 来源于 沙龙365登入
可以听文章啦!
  1. 发表评论
  2. 分享到微信朋友圈
  3. 腾讯转发
  4. 新浪转发
博弈论对整个社会科学的影响是非常大的,无论是经济学、政治学,还是社会学,都大量使用了博弈论作为工具
陈永伟
经济学博士、博士后,研究领域为产业经济学、发展经济学和法律经济学,曾在中英文学术期刊上发表论文20余篇。目前为北京大学市场与网络经济研究中心的研究员和主任助理。

  【沙龙365登入】(专栏作家 陈永伟)上一次课我们已经介绍了微观经济学研究的一种方法(或者在法学院叫“进路”会更好)——价格理论,今天我们接着介绍另一种方法——博弈论。和价格理论中所有人只对价格信号作出反映不同,在博弈论中,每个人都要针对对手的行动做出反应,这种处理方式的不同是两套理论的根本区别。

  目前,博弈论对整个社会科学的影响是非常大的,无论是经济学、政治学,还是社会学,都大量使用了博弈论作为工具。在法律经济学中,博弈论的应用也非常频繁。我们在后面介绍财产法、侵权法、合同法、刑法,以及规制、反垄断等各类问题时,都会涉及到博弈论。事实上,在很多研究中应用博弈论也成了一种风潮。曾经有一个博士找我吐槽说“陈老师,我写不出论文怎么办?”我瞥了他一眼说“饱食终日,无所用心,难矣哉!不有博弈者乎,为之犹贤乎?”这位博士大惑不解,沉吟片刻后说:“陈老师,说人话!”我解释说:“用人话讲就是‘你个吃货,整天吃饱了撑着没事干,读书不用心,想要毕业找到工作,真是很困难啊。你不是学过博弈论吗?没事用一点,不也能让你显得高端大气上档次吗?’”这个例子当然是用来搞笑的,但我想用它来说明博弈论的应用,恐怕也是合适的。

  (一)博弈论简史

  1、纳什之前

  博弈论的体系非常复杂,我们从哪儿说起呢?我想,还是从八卦,或者说学科史开始吧。数学家们经常揶揄经济学家,“你们整天鼓捣博弈论,这玩意儿不就是数学的一个分支吗?”是的,如果严格地按照学科划分,博弈论属于运筹学的一个子学科,属于应用数学的范畴。不过,经济学家也不必自卑,因为如果细细地查问一下这门学问的渊源,就会发现其实它的产生源于经济学家的倡议,并且最早的初衷也是为了解决经济学问题。

  故事可以追溯到上世纪20年代,一位奥地利经济学家奥斯卡·摩根斯坦(Oskar Mogenstein)不满于传统价格理论中对行为主体互动的忽视,希望能够在门格尔和庞巴维克提出的交换经济基础上建立一套严格的理论,用以分析经济中人们的互动决策。为了这个目的,他找到了匈牙利裔科学家约翰·冯·诺依曼(John von Neumann)。此时,这位科学史上的天才碰巧也正对经济问题着迷,在通读了包括瓦尔拉斯的《纯粹经济学原理》、帕累托的《数学心理学》在内的大量经济学著作后,他也有了和摩根斯坦相同的不满,认为经济学不考虑人们的互动是不合适的。于是,两人一拍即合,决定一起创立一门新的理论。不过,由于种种原因,这一伟大的构想在提出不久后就搁置了。直到十多年后两人在普林斯顿再次重逢,这一工作才重新被提上了日程。在两人的合作下,巨著《博弈论与经济行为》于1944年横空出世,博弈论这门学科从此诞生。据说,这部长达一千多页,充斥了数学公式的“天书”主要是由冯·诺依曼独立完成的,而摩根斯坦则主要负责提供思想,以及最后绪论的写作。

  在《博弈论与经济行为》中,冯·诺依曼和摩根斯坦开创了合作博弈这一领域,对零和博弈(也就是一人所输即为另一人所得的博弈)进行了详细的分析,提出了“最大最小原理”。这些成果中很多都富有洞见,但总体来说,它们并不像两位作者最初设想的那样,可以被用来作为分析经济现象的利器。事实上,在全书中,两位作者也很少以经济现象为分析对象,而是主要用纸牌或国际象棋等游戏来作为研究案例——或许是由于这个原因,这一理论才以Game Theory命名。更令人遗憾的是,这些理论即使被用来指导纸牌实践,其效果也不佳。冯·诺依曼很喜欢打牌。有一次他和一位朋友打牌,朋友建议以5美元为赌注,试试冯·诺依曼的新理论究竟能否帮他提高牌技。结果,冯·诺依曼输了,只好愿赌服输,乖乖交出5美元。朋友一把拿过钱,一把把钱贴在了一本《博弈论与经济行为》的封面上,然后笑着说“你这个理论啊,也就值5美元!”当然,也有人说冯·诺依曼牌技臭并不意味着他的理论真的不能指导打牌。据说后来有个赌徒仔细琢磨了书上的理论,终于悟出了一套绝学,最后在一次纸牌大赛中获得了冠军——这些都是后话了。在当时,《博弈论与经济行为》确实没有如愿掀起经济学革命的浪潮。时任芝加哥大学经济系主任的雅各布·维纳(Jacob Viner)教授就嘲讽说:“这套理论连国际象棋问题都解决不了,又怎么可能解决现实生活中的复杂问题呢?” 维纳的学生、后来的诺贝尔经济学奖得主保罗·萨缪尔森(Paul Samuelson)则评价得更有艺术性:“这套理论,非常有开创性。它确实能解决很多问题——除了经济问题!”

  为什么冯·诺依曼和摩根斯坦并没有达到他们的目的呢?原因在于他们走错了路子——他们希望研究市场中人的互动行为,但却选择了社会视角的合作博弈作为切入点,这显然无异于缘木求鱼。不过,这种尝试也不是没有意义,后来合作博弈在沙普利(Lloyd Shapley)——就是在电影《美丽心灵》中和纳什一起追女孩的那位——等人的发展下茁壮成长,应用范围很广——在器官配型、婚恋匹配等市场设计实践中起到了关键作用。如果有学习知识产权的同学,应该知道标准必要专利的“公平、合理、无差别”许可费(FRAND Royalty,FRAND许可费)是很难确定的,而一种比较新的计算FRAND的方法就应用了合作博弈中的Shapley值。除了对后来学科的影响外,冯·诺依曼和摩根斯坦的工作还留下了一些重要的思想资源。例如,其中的“最大-最小原理”,就启发了罗尔斯对其正义理论的构造——或许这就是所谓的无心插柳柳成荫吧!

  2、纳什与纳什均衡

  对于博弈论的重大突破是从纳什开始的。当时,纳什是普林斯顿的学生,和很多其他学生一样,他也是冯·诺依曼的“粉丝”。在冯·诺依曼和摩根斯坦的巨作出版后,他也怀着崇敬的心情阅读了这部作品。在阅读过程中,他发现了一个重大的问题:冯·诺依曼用“最大-最小原理”来求解博弈,但这种求解的方式仅对两人的博弈有效。当多于两人时,则需要把参与人分成不同的“联盟”来进行思考,在确定了不同联盟的获益后再考虑联盟内部的分配问题。很显然,这样的分析具有很大的局限性,因为在现实中博弈的参与人往往不止两个,并且它们并不是通过联盟来进行博弈。所以纳什想要做的,就是要试图找出一种更为普遍的“解”的概念,它不仅适用于零和博弈,也适用于一般博弈。

  在有了这个想法后,纳什十分兴奋地跑去找冯·诺依曼谈。当时,冯·诺依曼已经是名满天下,而纳什只是一个无名小辈,所以这一次见面注定会是不愉快的。在《美丽心灵-纳什传》中,记录了纳什在证明了“纳什均衡”的存在性后去见冯·诺依曼的情形:

  冯·诺依曼端坐在一张巨大的桌子旁边,穿着昂贵的三件套西装,打了丝质领带,口袋里露出精致的手帕,整个人看上去与其说像个学者,倒不如说更像一个富有的银行总裁。他也确实和公务繁忙的行政人员一样心事重重.当时正担任12个顾问职务,“没完没了地和奥本海默争论”氢弹研制的问题,同时指导两台计算机样机的建造和程序编制工作。他做了一个手势让纳什坐下。他当然知道纳什是谁,只是对于他的来访感到有点儿困惑。

  他细心地听着,微微抬头,手指轻轻敲着桌面。纳什开始描述自己已经想好的证明两个以上局中人参加的博弈的均衡方法。不过,没等他说完几个互不相关的句子,冯·诺依曼突然打断了他的话,在纳什尚未说到这个证明的结论之前抢先说:“小菜一碟,你知道,这只不过是一个不动点定理。”

  如果有人问什么是“被碾压”的感觉,我想当时的纳什应该是最明白其中滋味的。值得庆幸的是,冯·诺依曼的冷水并没有浇灭纳什心中的激情之火。在盖尔教授的指导下,纳什尝试用“角谷静夫不动点定理”证明了纳什均衡的存在性。这个定理说明了,他所希望的那个均衡,那个博弈的解的概念是普遍存在的,它可以被用到对所有问题的分析中。自从有了这个定理,整个博弈论的面貌焕然一新了。

  很多年后,纳什在回忆这次见面时曾说:“我当时其实正和冯·诺伊曼进行一个非合作博弈,而并非单纯寻求加入他的联盟。当然,从心理学的角度来看,他不能对一个竞争对手的理论方式感到十分高兴也是很自然的事情。”细细品来,话中颇有一些“今天你对我爱搭不理,明天我让你高攀不起”的感觉。

  不过,这里我倒想为老冯说几句公道话。从他的角度看,看不起“纳什均衡”到底有没有道理呢?我想,其理由是很充分的。冯·诺依曼所提出的“最大-最小原理”虽然适用范围很广,但是它的预测性是很强的——至少作为一套理论,它具有被反驳的可能。而“纳什均衡”的概念呢,在很大程度上依赖于局中人之间的信念。在一个博弈中,既可能有一个均衡,也可能有很多均衡。究竟哪个会出现?说不准。从这点上看,作为一个应用理论,“纳什均衡”似乎是失败的。我想,这可能是冯·诺依曼并不喜欢“纳什均衡”的一个重要原因。但如果情况真的如此,那么看走眼的就可能是冯·诺依曼,而不是纳什。因为信念、多重均衡等问题的存在恰恰为博弈论的发展提供了重要动力。

  3、纳什之后

  在“纳什均衡”提出之后,非合作博弈取代合作博弈成为了博弈论研究的主流。纳什研究的问题主要是一个静态的、完全信息的博弈,因此此后博弈论的进展方向是很直观的:

  一个方向是把博弈论拓展到动态,也就是把博弈者行动的顺序考虑进来。这个工作主要是由纳什的同学库恩(Harold W. Kuhn)开创的。我想如果同学们学过“非线性规划”,那么一定会知道这个名字,因为他和塔克(他和纳什的老师)一起提出了著名的“库恩-塔克条件”(Kuhn-Tucker Condition)。说到这儿,我们不得不感叹普林斯顿对于博弈论发展的贡献是多么地重要,冯·诺依曼、纳什、沙普利、库恩,整个博弈论的奠基性工作竟然都由这一个大学的人承包了!

  值得注意的是,当我们考虑动态博弈的时候,纳什均衡就会产生很多的问题。为了克服这些问题,就必须对博弈进行“精炼”(refine)。这一工作主要是塞尔顿(Reinhard Selten)完成的。在一篇著名论文中,他提出了“子博弈”,以及“子博弈精炼均衡”的概念,并发展了求解动态博弈的逆向归纳法。当然,塞尔顿在博弈论方面的贡献还不止如此,他的贡献还包括提出“颤抖手均衡”、开拓实验经济学等。值得一提的是,他在爱情上的忠贞也是可圈可点。塞尔顿的夫人患有严重的糖尿病,下肢瘫痪并近乎失明。但尽管如此,塞尔顿每次演讲都会带上他的太太,并不时投去会心的微笑。我想,两位老人相濡以沫,一起变老,或许就是传说中“最浪漫的事”吧!

  另一个方向是把博弈论拓展到不完全信息。在这个方向,海萨尼的贡献是最大的。海萨尼的一生非常传奇。“二战”期间,他曾被德军抓去做苦力,历尽艰险才逃脱。战后,他在布达佩斯大学得到了博士学位,本以为苦尽甘来,但却因为和当局政见不合而被迫流亡澳大利亚。由于澳大利亚不承认奥地利学位,因此满腹经纶的海萨尼就成了“低学历者”而不得不在工厂充当普通工人。在工作间隙,他进修了经济学硕士学位,并开始在经济学期刊上发表论文。在几年后他离开澳大利亚远赴美国时,他已经是声名远播。但为了谋得一个教职,他还是需要一个博士学位,于是就投入了经济学泰斗阿罗门下,并在阿罗指导下完成了一篇博士论文。作为博士论文,这可能是最轻率的,因为包括导师在内的人都知道这篇论文除了作为一块敲门砖外,什么也不是。于是,阿罗甚至都没有仔细看论文,只在答辩时提了一句“加个例子”的建议后,论文就顺利通过了!

  海萨尼在理论上的贡献主要是所谓的“海萨尼转换”。纳什等人创立的博弈论主要是在“完全信息”条件下展开的,它假设所有的参与人要知道自己对手的一切,这显然不可能!但如果我们都不知道对手是怎么样的人,我们又怎么可能进行博弈呢?用学术的语言讲,我们根本没有办法处理“不确定性”!海萨尼对这一问题的解决很巧妙,就是引入一个上帝,假设上帝以一定概率对对手的类型进行选择,然后我们再分别和各个类型的对手进行博弈。这样一来,一个“不完全信息博弈”就变成了一个“不完美信息博弈”,后面的处理就容易多了。我不知道海萨尼是怎么想到这个奇妙的观点的。或许在生活中经历了太多,所以才想到冥冥之中自有天定,才想起了那个上帝吧!

  说到这儿,我们已经对博弈论的大体结构,以及发展脉络有了一个简单的了解。我希望这样的介绍可以给同学们一个大致的地图,知道博弈论从哪儿来,也可以知道博弈论能够用到哪儿。

  (二)静态博弈

  1、博弈的基本要素

  下面,我们正式开始对博弈论进行介绍。首先我们要介绍一下博弈的几个要素。一般来说,一个博弈包括七个要素:参与人、行动、策略、信息、支付、均衡和结果。

  所谓参与人(player)就是到底谁参加了这个博弈。这一点看似无聊,但其实很重要。毛主席曾说过:“谁是我们的朋友,谁是我们的敌人,这是革命的首要问题”。在分析博弈时,搞明白谁是博弈的参与人非常重要,但这一点其实并不容易。很多时候,不少博弈是相互嵌套的,一个大博弈套着很多小博弈,如果你只看到小博弈,没有看到大博弈,那么碰了鼻子就只有干着急。

  所谓行动(action),就是参与人到底可以做什么;而所谓策略(strategy),指的是参与人在什么时候、什么情况下会做什么。对于初学者而言,这是两个很容易搞混的概念——事实上,在静态博弈中,它们是一致的,只有在动态博弈中,它们才有区别。关于这点,我们在后面的会通过例子进行介绍。

  所谓信息(information),指的是参与人对于对手了解的程度。在博弈论中,这用信息集的概念来表示。例如,在下棋时,我们的对手可能是高手,也可能是臭棋篓子。如果我们确切知道他到底是什么类型的人,那么我们的信息集就只包含一种类型;而如果我们分不清他到底是什么人,那么信息集就有两个元素了,因为你无法在集合中进一步做区分。

  在博弈论中,有两个经常提到的概念——“完美信息”(perfect information)和“完全信息”(complete information)。其中,完美信息是我们可以确知在整个博弈中已经发生了生么,知道你和你的对手已经做了什么。例如,如果你的记忆力足够好,那么象棋就是一个完美信息的博弈。而“完全信息”指的则是你确切知道对手的类型,到底是高手还是臭棋篓子。与这两个概念对应的,我们可以十分容易地定义“不完美信息”(imperfect information)和“不完全信息”(incomplete information)。其中,不完美信息指的是参与人并不能对博弈过程完美会意——例如对于一个患有健忘症或老年痴呆症的人,象棋对你来说就成了不完美信息博弈。而不完全信息指的则是你不确切知道对手的类型。显然,当你和一个陌生人打牌、下棋,或者开黑“王者农药”时,你就在进行一场不完全信息博弈。前面我们讲到了海萨尼的贡献,其实就是用一个trick把“不完全信息”转变成了“不完美信息”——或许这样的代价是从“无神论”转入了“有神论”。

  所谓支付(payoff),指的是在不同策略组合下,每个参与人到底得到了多少。在分析真实的博弈时,有一点是特别需要注意的,就是你必须知道博弈参与人的真实支付究竟是什么。例如,在分析企业行为时,我们经常把企业的利润作为支付。但事实上,背后决定策略选择的是具体的人,他们的目标可能并不是利润最大化,所以在博弈中用利润来作为他们的支付就会有问题。

  所谓均衡(equilibrium),指的是所有的参与人都选择了自己认为最好的策略时所构成的战略组合。由于所有人都已经最优化了自己的行为,所以大家都没有激励去偏离。在博弈论中,均衡的概念有很多,我们后续会一一介绍。

  所谓结果(outcome),是指在均衡时,谁得到了什么,支付到底怎么样。

  2、占优均衡和(纯策略)纳什均衡:概念及其应用举例

  我想,这样的介绍对于大家来讲,一定是过于枯燥了。下面我们通过几个例子来对此进行说明。

  第一个例子是“囚徒困境”(prisoners’ dilemma)。作为博弈论中最著名的模型,“囚徒困境”是由兰德公司的两位研究人员Flood和Dresher于1950年最早提出。后来,塔克教授——对,就是那位纳什的老师——在某次接受访谈时被问及能否用一个例子来概括博弈论的精髓,于是就灵光一现介绍了这个例子。自此,“囚徒困境”名满天下。那么,这究竟是一个怎样的例子呢?它讲述的是一个虚构的故事:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方对两名嫌疑犯进行隔离审查,并向双方提供以下相同的选择:若一人坦白,而另一方抵赖,则前者将立即获释,后者将入狱10年;若两人都抵赖,则二人各获刑1年;若两人都坦白,则两人各获刑8年。

  在这个博弈中,参与人是很明确的,就是两个囚徒。由于是一个静态的博弈,因此博弈的行动和战略也是一致的,都是两个“坦白”和“不坦白”。至于信息,在本例下是完全的,因为每个人都确知对方的类型,以及支付结构。

  那么,均衡应该如何考虑呢?我们可以这样思考:对任何一名囚徒来说,无论对手的选择如何,他选择坦白总是更好的——给定另一名囚徒不坦白,当他选择了坦白,就可以立即释放,而如果不坦白,则要获刑1年;给定另一名囚徒坦白,当他也坦白了,就只要入狱8年,而如果不坦白,则要蹲10年大牢!总而言之,无论另一个囚徒坦白还是不坦白,自己选择坦白总是有利的!这个博弈的均衡非常有趣——每个参与人的最优策略选择都和其他人的选择无关,这种最优策略叫做占优策略(dominate strategy)。由占优均衡构成的均衡,称为占优均衡。

  但是,当我们仔细观察一下这个博弈后,就会发现,这个博弈实际上十分奇怪。如果两人都不坦白,那两人的刑期加起来不过就是2年,也就是说,两个人都选择不坦白,对于这个由两名囚徒组成的“社会”是最好的。而当两人都挖空信息,选择了自认为对自己最好的策略,结果却是两人总共获刑16年,这是所有均衡结果中总刑期最长的——换言之,这导致了“社会”福利的最差化!

  从广义上讲,“囚徒困境”一词被用来形容一类博弈。在这类博弈中,虽然从集体理性看,参与人之间都选择合作能带来最大收益,但对单个参与人而言,选择不合作却是占优战略。因此,在所有参与人都追求自身利益的动机会让大家都陷入最坏的境地,每个人的利益都会因此受损。在现实中有很多问题最终都可以归结为“囚徒困境”。

  例如,在大学中,老师对学生的成绩评判通常是根据学生的相对表现给出的。在这种情况下,如果所有学生都不刻苦学习,则大家都可以很轻松地拿到高分。但现实呢?学生们总希望自己比别人的成绩高,因此都会单方面更努力,偷偷“刷题”较劲。这样的结果是,虽然大家都努力了,但最终大家的成绩却和都不努力相差无几,其情形是和“囚徒困境”十分相似的。

  又如,在现实中我们经常看到商家之间进行残酷的“价格战”。低廉的价格虽然能让消费者获利,但却会让竞争的商家都无利可图。那么商家为什么不相互协商,共同商定一个更能盈利的价格呢?答案的逻辑还是和“囚徒困境”一样的。对于任何一个商家,如果其对手都遵循了协议,那么它单方面降价就能把所有的消费者都吸引过来,从而获得暴利。考虑到这点,所有的商家就都难以遵守协议,价格同盟就会不攻自破。

  再如,著名的“公地的悲剧”,其实也是“囚徒困境”的表现。尽管所有人可以制定一个令集体经济效益最大化的土地使用方案,但对于任何一个人来讲,单方面多使用一些土地总很可能是更有利的。因此所有人都会有过度使用土地的动机,最终土地也必然会滥用。和“囚徒困境”一样,此时所有人的收益都会低于最优值。

  由于从集体理性的角度看,囚徒困境会带来严重损失,因此在现实中人们采用了各种方法来避免陷入这种境地。克服囚徒困境的一种方法是,通过制定制度、规范,改变博弈的支付结构。而我们的法律经济学,在很大程度上要做的就是这样的工作。所以,在后面的介绍中,我们将不断重新提及这个例子。

  第二个例子是交通博弈。这个博弈很简单:相向而行的两辆车都可以选择向左行,或者向右行。如果两个车都向左行,那么车辆都正常通行,两辆车都得到1单位支付。而如果其中一辆向左,另一辆向右,则两辆车相撞,都得-1单位支付。

  这个例子的参与人,就是相向而行的两辆车上的司机。行动/战略有两种:向左行或者向右行。对应的,我们可以定义各种战略组合下两个参与人的支付。

  但这个例子似乎和囚徒困境不同,参与人没有可以以不变应万变的“占优策略”,因此也不存在所谓的“占优均衡”。为了求解这样的博弈,我们需要定义一种新的均衡,也就是大名鼎鼎的“纳什均衡”。

  定义纳什均衡,我们需要首先定义最优反应策略。我们前面已经说过,占优策略是以不变应万变,但现实中,这种情况很少存在。更为现实的现象,是一种见招拆招式的策略应对。例如,在本例中,如果一方司机预见到对方会向左行,那么向左行对他来说就是最好的;而如果他预见到对方会向右行,那么他的最优选择就应该是向右行。这种见招拆招式的应对,就是所谓的最优反应策略。如果所有的参与人都采取了最优反应策略,那么由此组成的策略组合就是所谓的纳什均衡。

  在定义了纳什均衡后,我们可以用它来重新考虑交通博弈。容易发现,在这个博弈中,有两个纳什均衡(或者更确切说纯策略均衡,因为还有一个混合策略均衡),分别是都向左行和都向右行。可以验证,当一方给定了自己的行动时,另一方就没有偏离的动机——从这个意义上讲,这两个组合确实都可以被称为是均衡。

  交通博弈反应的也是一类重要的问题——协调问题。这个博弈中,如果大家都是左行,也可以;都是右行,也可以,社会福利(用两个参与人的支付之和表示)都是最大的。但在于每个参与人做决策时,并不知道对方做了什么,因此就可能出现“协调失灵”(Coordination Failure)的问题。现实中,“协调失灵”问题是很常见的。例如,在经济发展过程中,最好的状态就是有企业进入产业上游,有企业进入下游,这样一条完整的产业链就能很快建立起来。但现实中,谁来进入哪个领域,大家是不知道的。但在分散决策过程中,很可能会出现企业一窝蜂进入某个领域,而其他领域没人进入的情形,这时经济发展就会停滞。面对这种情况,其实不需要额外的资金投入,只要设法引导资源从一些领域转移到另一些领域,就可以实现经济发展。

  第三个例子是“性别大战”(sex battle)博弈。有人说,女人就像火车,就喜欢逛、吃、逛、吃……偶尔还会呜呜呜。现在考虑,有两个女人——不妨就叫小明和小红吧,她们都爱逛街吃饭。做为闺蜜,她们只有在一起逛街或吃饭才能获得效用,如果单独逛街或吃饭,效用就是0。所不同的是,小明更爱吃饭,小红更爱逛街,所以如果两个人一起吃饭,小明的效用是2,小红的效用是1,而如果两人一起逛街,小明的效用是1,小红的效用是2。

  我想,通过前面例子的训练,同学们已经可以很快说出这个博弈的主要元素是什么了。我们看看这个博弈,它和交通博弈其实很类似——从社会的角度看,两人共同选择相同的战略时,福利达到最大值。所不同的是,这个博弈还涉及到分配问题,因为在两套“好”方案——一起逛街或一起吃饭中,某一个人会获得更多一些的利益。同学们可以想一下,这种博弈对应的是什么现实情况。是不是很像由不同小组主导的两套工作方案?

  这个博弈的纳什均衡呢?也很容易找。注意,如果给定了小明选择逛街,那么小红的最优反应就是逛街;如果给定了小明选择吃饭,那么小红的最优反应就是吃饭。反之,也可以定义小明的最优反应。因此,这里的纳什均衡(确切说,纯战略均衡)有两个:一起逛街和一起吃饭。

  第四个是懦夫博弈(Chicken Game)。这个博弈的英文名叫Chicken Game,有些书上把它叫做“斗鸡博弈”。其实这是不确切的。其实在英文中,chicken有“懦夫、胆小鬼”的意思,所以把它翻译为懦夫博弈是最恰当的。这个博弈说了什么呢?说的是两个壮汉在一条路上狭路相逢。由于路太狭了,只容一个人通过,所以两个人都执意要先过去,就谁也过不去。必须打一架定胜负,结果是两败俱伤,都得到-3单位的效用。而如果一方退让,让另一方先过去,那么退让的一方得到0单位效用,先过去的一方得到2单位效用。如果两方都退让,那么都得0单位效用。

  同学们可以自己分析这个博弈的各个元素,以及均衡。显然,在这个博弈中有两个(纯战略)纳什均衡,都是由一方前进,而另一方退让构成的。

  这个博弈的象征意义是很明确的,它体现了参与人之间激烈的利益冲突。现实中什么博弈是懦夫博弈呢?我想现在就有个很现成的例子,就是朝鲜半岛危机。现在朝鲜和美国就好像是这个博弈中的那两个彪形大汉。如果谁都不退让,那么就会走向战争,最终两败俱伤。而如果一方退让,另一方不退让,那么其中一方就会失掉面子。那么,朝鲜半岛的局势会怎么发展呢?不好说。根据我们的博弈,这应该有两个均衡。最可能的结果应该是有一方选择退让。但谁会退让呢?还真不好说。作为吃瓜群众,我们能做的,或许只是《基督山伯爵》最后那句“等待和希望”吧!

  第五个博弈是“智猪博弈”(Boxed Pigs Game)。这个博弈说的是,一个猪圈里生活着 一 头大猪与一头小猪。有一天,猪圈里安装了一个进食的按钮,按一下就会出现10个单位的猪食。但去按按钮,需要付出相当于2单位猪食卡路里的体力作为代价。并且谁去按按钮,就会成为后进食者。如果大猪先进食,能吃9单位猪食,而小猪只能吃到1单位猪食;如果同时到,则大猪吃到7单位,小猪吃到3单位;如果小猪先到,则大猪吃到6单位,小猪吃到4单位。

  很奇怪!这个博弈的参与人竟然不是人,而是猪!而双方可能选择的行动(或者说策略)都是两个——“按按钮”和“等待”。让我们来看一下支付状况。如果大猪小猪都去按,那么大猪吃到7单位,小猪吃到3单位,两“猪”分别扣除2单位成本,最终的支付分别为5和1。如果大猪按,小猪等待,那么大猪吃到6单位,扣除2单位成本,净得4单位,而小猪则净得4单位。如果大猪等待,小猪按,那么大猪净得9单位,小猪吃到1单位猪食,却付出2单位体力成本做代价,净得-1单位。如果大家都不按,那么都没得吃,都得0。

  在这个博弈中,要害在于对小猪行为的分析。我们看到,给定大猪按按钮,小猪如果按按钮,得1单位,等待,则得4单位。给定大猪等待,小猪如果按按钮,则得-1,等待,则得0。也就是说,对于小猪来说,等待就是它的最优反应。或者说,对于小猪来说,等待其实是一种占有策略——无论你大猪按或者不按,我都在这里,就在这儿静静地用一双含情脉脉的眼睛看着你。而大猪却没有占优策略。它的最优反应取决于小猪的行动。如果小猪等待,它的最优反应就是按;如果小猪按,它的最优反应就是等待。

  那么,这个博弈最后会出现什么纳什均衡呢?很简单,就是大猪去按,而小猪等待。因为大猪通过按按钮得到猪食的利益太大了,尽管小猪捡漏摘桃子会让它很不高兴,但是一想到猪食的诱惑,这些就都不是问题了。

  “智猪博弈”所体现的,是一种“弱者的优势”。例如,在国际社会中,恐怖袭击问题是一个公害,但谁去管呢?对于美国这样的超级大国,恐怖袭击的危害是很大的,所以打击恐怖活动的激励也很大。而对于一些落后效果——什么?让我去管恐怖袭击?反正我们国家已经落后得像炸过一遍了,再炸一遍也没什么损失,为什么要劳师动众去打击恐怖活动呢?所以这种光荣而艰巨的任务,往往会落在美国这样的国家身上。又如,宿舍的卫生。在宿舍里面都是谁打扫卫生呢?一般来说,就是那个最爱干净的同学。而不太爱干净的同学,只要学着小猪那样静静地躺着,用含情脉脉的眼光看着搞卫生的同学,就可以享受到干净、舒适的生活环境了。

  “智猪博弈”是一个有意思的智力构建,但更有意思的是,竟然有人因为这个例子的主角是猪而不是人来否认这个例子。他们认为,猪是不会像人那样思考的,所以这个例子以猪喻人就很没意思。但是,猪真的不会博弈吗?天下怕就怕认真二字!有老外为了验证猪究竟会不会像故事里说的那样博弈,真找了一大一小两头猪放在猪圈里,并设计了和故事中相同的场景。结果呢?在经过一段时期的学习后,两头猪之间竟然出现了和“智猪博弈”预言一致的结果。看来,故事有时候比现实还真实,而猪可能也远比人想象得聪明!

  3、混合策略纳什均衡

  好,我们已经看了那么多的具体例子。我想同学们应该已经对博弈的元素,以及均衡的求解方法有所了解了。我这里想重申一下,我们已经说了两种均衡的概念——“占优均衡”和“纳什均衡”。其中,占优均衡是由“以不变应万变”的占优策略组成的,而纳什均衡则是由“见招拆招”的最优反应策略组成的。显然,占优策略也是最优反应策略,因此占优均衡一定是纳什均衡,而反之则不然。

  并不是所有的博弈都会有占优均衡,但是几乎在所有的博弈中都会存在着纳什均衡。这一点,纳什已经在他的论文中给出了证明。说到这儿,恐怕马上有同学要准备对我实力打脸了,因为他们恐怕已经找到了这个命题的反例。

  是的,这样的反例很容易构造。例如,考虑一个简单的硬币配对问题。甲乙两人都可以选择硬币朝上或者朝下。如果两人的硬币都朝上或者都朝下,那么甲得2单位支付,乙得到0单位。如果两人的硬币朝向不同,那么甲得0单位,乙得2单位。

  这个博弈就很奇怪了。因为按照我们前面讲的用最优反应法,根本求不出一个均衡!但是,这并不意味着这个博弈没有纳什均衡,而是意味着前面的纳什均衡定义需要拓展。

  事实上,前面我们定义的纳什均衡叫做纯策略纳什均衡,它是由参与人分别选择确定的策略构成的。但是,在很多时候,参与人的策略其实是以一种概率的形式表达出来的。一般来说,如果不存在纯策略的最优反应,那么最优反应就通常是一个概率。由混合策略的最优反应所构成的均衡,就是所谓的均和策略纳什均衡。

  那么,怎么求混合策略的纳什均衡?或者更基本的,怎么求解混合策略的最优反应呢?这个问题的要害在于,如果一个参与人运用了混合策略,那么组成这个混合策略的所有纯策略一定会给他带来同样的期望支付。为什么呢?试想,如果甲以一个概率组合选择了朝上和朝下,但他发现其实选择朝上可以带给自己更高的期望效用,那么她为什么不干脆就选择朝上这个确定的策略呢?

  在明白了这点之后,我们就可以对问题进行求解了。假设甲、乙分别以概率p、q选朝上,以概率1-p、1-q选择朝下。那么,如果甲选择朝上,他的期望支付有多大呢?如果他选择朝上,那么有q的概率遇到乙也选朝上,得2单位支付,有1-q概率遇到乙选朝下,得0单位支付。此时,其期望支付为2q。同理,如果他选择朝下,那么其期望支付就是2(1-q)。令两者相等,就可以得到q=1/2。应用同样的流程,可以求得p=1/2。

  我想,应该有同学很快发现了问题:咦,为什么我们这里考虑的是甲的决策,求出的却是乙的最优反应?是的,博弈论就是如此,它考虑的是人们之间的互动,所以每个人的行动都是别人的条件,反之亦然。对于这种逻辑,大家要注意理解。

  或许还有同学觉得,混合策略是很奇怪的。为什么要定义这样的策略呢?它仅仅是为了保证纳什均衡的存在而编出的理论产物吗?答案当然不是这样。在很多博弈中,选择纯策略会让人吃亏,只有选择混合策略才能让人看不透,才能取得先机。《孙子兵法》上提倡用兵要讲究“奇正相兼”,其实就是“混合战略”思想的一个应用。假设一个将军有“奇”、“正”两种战术可供选择,那么如果他总是固定采用其中的某一种战术,那么他的敌人就很容易找到克制他的战略;而如果他有时用“正”,而有时出“奇”,那么敌人对他的战术就很难猜透,从而也更难应对。

  实际上,混合策略的应用也远比人们想象的来得真实。赛场是博弈论的天然试验场,有不少学者曾利用各类比赛曾利用体育比赛为背景,对混合策略的使用进行过考察。例如,Walker和Wooders(2001)曾计算过沙龙365登入网球名将的发球方向比例及其得分情况。容易发现,那些顶级网球运动员基本都是采用混合战略选择自己的发球方向。但在混合战略中,纯策略“左”和“右”的得分率都是非常相似的。

  4、均衡的多重性及均衡的选择

  到目前为止,我们已经对纳什均衡有了一定了解。我们看到,在很多博弈中,纳什均衡都不是唯一的。从社会福利的角度看,这些均衡有的好,有的坏,那么在现实中,究竟哪些均衡会实现呢?我们又可以通过什么方法去实现好均衡、避免坏均衡呢?答案是,在现实中,均衡的实现要依赖于具体的文化、法律和制度背景。要进行均衡选择,就要从这几个方面入手。

  先看文化。这里要向大家介绍一个“聚点”(focal point)的概念。这个概念是诺贝尔经济学奖得主托马斯·谢林提出的。谢林是一个战略专家,作为博弈论专家,谢林在学者圈里的名气并不算特别大——事实上他自己也不认为自己是个博弈论专家——但我认为从重要性来说,他可能更大。为什么呢?因为他拯救过沙龙365登入,而且是两次!在古巴导弹危机和柏林墙危机的时候,人类已经走到了核战争的边缘,而谢林提供的战略分析则帮助美国政府在关键时刻保持了冷静,从而帮人们避免了战争。由此可见其重要性。

  言归正传,还是回来说“聚点”。这个概念最早源于谢林和老同学的一次见面之约。当时谢林通知老通知要去他的城市看他,但是却忘了告诉他在哪儿见面。这就麻烦了,当时没有电话,联系不便,总不能到处乱逛,期待着“你会不会突然出现,在街角的咖啡店”吧?当时,谢林想起自己在念书时曾和老同学一起去旅行,旅行中他们曾说过,在一个城市,最好的见面地点是邮局,并说以后如果大家走散了,就在邮局见。想到了这个约定,谢林就来到了邮局。果然,他的老朋友早已在那儿等他。两人相视一笑,“嗨,好久不见!”

  考察这个见面博弈,其实在城市的任何一个角落见面都是纳什均衡。为什么在这样无穷多个的纳什均衡中,谢林和他的老同学会选择了在邮局见面这个均衡呢?原因就在于他们有共同的生活经历、共同的文化体验。这些对于我们分析博弈,是很重要的。这告诉我们,在具体考虑博弈问题时,不能只关心冷冰冰的支付,而要把文化因素考虑进来。

  另一种解决多重均衡的方法是提供信号。在博弈论中,有一个“相关均衡”的概念,它是由诺奖得主罗伯特·奥曼提出的。关于它的具体定义我不想作太多的介绍。但大体来说,它是通过一个信号装置来协调参与人的行为。例如,通过红绿灯来指挥走或者停。通过这种信号,就可以得到一个具体的均衡。

  最为常用的选择均衡的方式就是通过法律和制度来进行规范。法律和制度对于博弈的作用是多方面的。首先,它会改变均衡的支付状况。例如,我们前面说过公地的悲剧是囚徒困境的一种体现。如何避免这种悲剧呢?一个最简单的方法就是对过度放牧进行处罚。在进行了处罚后,每个人的支付状况变了,就不会选择多放牧了。这是改变支付状况来影响均衡。其次,有一些法律并不用改变支付就可以选择出均衡。例如,在交通博弈中,如果政府规定了向左行或者向右行,那么这一规定就会成为博弈的聚点。最后的均衡就会在这个聚点上实现。

  当然,在法律缺失的环境下,还有一种人们自发的力量来进行博弈均衡的选择。这种选择力量就是重复博弈。关于这个,我想在后面几周谈到关系型合同的时候再和大家详细介绍,现在先保持一些神秘感。

  5、策略空间无限的静态博弈

  前面我们说的,都是有限多个策略选择的博弈。但现实中,很多博弈的可选择策略有无穷多个。例如,在分析反垄断问题时,我们经常用到两个产业组织中的模型:古诺模型(Cournot Model)和伯川德模型(Bertrand Model)。其中,古诺模型是产量竞争模型,也就是两个企业在市场上分别选择自己的产量进行竞争;伯川德模型是价格竞争模型,是两个企业在市场上分别选择价格进行竞争。从理论上讲,博弈中的参与人可以选择的策略都是无穷多个的,那么,我们应该如何进行分析呢?具体的分析需要一些数学技巧。但是大致的思路还是和我们前面讲的一致的。

  以古诺均衡为例。当给定了对手企业的产量后,一个企业面临的需求就是整个市场的需求减去它自己的产量。而市场上的价格是由它们两家的共同产量决定的,因此在面对“剩余需求曲线”后,企业事实上可以通过选择自己的产量来影响市场上的价格。有了价格,有了产量,有了成本,企业就可以得到自己的利润。通过求解利润最大化问题,企业可以得到自己的最优产量,它是对手产量的一个函数。或者说,在这个博弈中,每个企业的最优反应,就是对手战略的函数,这点和我们前面看到的博弈完全是一致的。联立所有企业的最优反应函数,就可以得到这个博弈的均衡。具体的数学分析,我在这儿就不多做介绍了,但是大家记住,类似古诺模型这种具体问题,分析的思路并没有摆脱博弈论的一般框架。求解最优反应,联立最优反应得到均衡,还是求解纳什均衡的一般思路。

  (三)完全信息动态博弈

  1、动态博弈的基本概念

  到此为止,我们分析的都是静态的博弈,下面我们要进入对动态博弈的分析。这里我们先要对博弈论中动态和静态博弈的区分进行一下说明。所谓静态博弈,指的是所有参与人同时行动,而动态则指参与人的行动有先后。注意,这里指的同时和先后,不是一个时间上的概念,而是一个信息上的概念。只要参与人在行动时不知道对方的行动,我们就认为他的行动是与对手同时的。例如,现在我和一个木星上玩博弈,他进行了一个行动,但哪怕是光传到这儿,也要一些时间。所以即使他已经行动了,但是我也没看到。此时我的行动就应该被视为是和他同时进行的。而如果是看到了对方的行动再进行,那就是个动态博弈了。

  在考虑动态博弈时,行动和策略的区别就变得很关键了。因为在动态环境下,不光“做什么”很重要,“在什么条件下做”也是非常重要的。举个例子来区分行动和战略。毛主席在论述游击战的策略时说过“敌进我退,敌退我进”。这里,红军可以选择的行动是两个,进和退。但是简单的进和退并不构成一个战略,只有说明什么时候进,什么时候退才是。这里,“敌进我退,敌退我进”就是一个战略,而根据敌方的策略,我们至少还能排出其他三种战略:“敌进我进,敌退我退”、“敌进我进,敌退我进” ,以及“敌进我退,敌退我腿”。这里要注意,在考虑策略时,要把每一种可能的情况下的对策都写出来,这才叫做策略。

  在动态博弈中,由于行动有先后,所以用“博弈树”来刻画是十分方便的。值得一提的是,这里涉及到一个信息集的概念。所谓信息集,是指参与人面对的可能历史的集合。也就是说,当参与人处在一个信息集上时,他知道该轮到自己行动了,但却不知道当前的具体情况究竟是什么,而此时他所面对的所有可能情况就构成了其所处的信息集。更为直观地说,如果用“博弈树”刻画动态博弈,则信息集就是这棵“树”上若干个结点的构成的一片片“叶子”(当然,单独的结点也可能构成一片叶子)。由于在博弈过程中,参与人只能知道自己在哪片叶子上,而不能确切知道在哪个结点上,因此他们只能根据这些“叶子” 而不是结点制定战略。

  2、子博弈纳什均衡和逆向归纳法

  那么,怎么分析动态博弈呢?我们仍然可以用纳什均衡的概念。事实上,根据策略,我们可以写出博弈的标准形式,然后用前面介绍的方法去进行处理。我们可以用如下一个例子来进行说明。这个例子说的是一个和大家息息相关的事:考试和给分。在一次考试中,老师可以选择是否让学生及格。而学生针对老师的行动,可以采取两个行动,接受,或者报复。如果老师让学生及格了,且学生接受了,那么老师支付是-1,学生支付是1;如果老师让学生及格了,且学生报复了,那么老师和学生的支付都是-10;如果老师让学生不及格,且学生接受了,那么老师支付是1,学生支付是-1;如果老师让学生不及格,且学生接受了,那么老师和学生的支付都是-10。

  在这个博弈中,有两个参与人,老师和学生。老师是先行动的,对于他来讲,他只有一个信息集,在这个信息集上,他可以选择两个行动,及格和不及格——这也是他的策略。而对于学生来讲,他可能面临的信息集有两个:自己及格了,或者自己不及格。在这两个信息集上,他分别可以选择两个行动,接受和报复。因此,对于学生来讲,其策略就有四个:“如果老师给及格就接受,如果老师给不及格就报复”、“如果老师给及格就报复,如果老师给不及格就接受”、“无论老师是否给及格都接受”,以及“无论老师是否给及格都报复”。

  同学们可以自己把这个博弈写一下,然后你就会发现这个博弈存在着三个纯策略纳什均衡:第一个是老师给及格,同学选“如果老师给及格就接受,如果老师给不及格就报复”;第二个是老师给不及格,同学选“如果老师给及格就报复,如果老师给不及格就接受”;第三个是老师给不及格,同学选“无论老师是否给及格都接受”。显然,这个博弈的均衡太多了,而且总给人一种摸不着头脑的怪怪的感觉。

  那么,怎么可以让博弈的结果看起来靠谱些呢?这儿就要涉及到子博弈精炼均衡的定义了。前面我们已经说了,这是塞尔顿提出来的。这个概念是什么意思呢?要说清楚,我们首先要介绍一下子博弈的概念。什么是子博弈呢?通俗地说,它就是博弈树上某个结点之后,可以构成独立一串的博弈。我们知道,动态博弈是参与人序贯决策的,参与人1进行了后参与人2来。整个博弈是一个博弈,而当参与人1行动完了,轮到参与人2时,从他的角度看,后面的博弈又是一个新的博弈。这样后面的一串博弈就是原来博弈的子博弈。这里要注意的是,我说的是独立成串的,也就是说在后续的博弈中,人们的信息集不会和其他子博弈之间发生纠连。用这个概念,我们就可以知道在前面说的老师和学生的博弈中,就有三个子博弈。一个是原博弈自身,一个是学生知道自己及格后的子博弈,一个是学生知道自己不及格之后的子博弈。

  子博弈精炼均衡的要求是,策略在所有的子博弈上都构成纳什均衡。也就是说不光要考虑到最后实现结果的那个分支,还要考虑很多“if模式”。用这个方法,我们就可以对这个博弈进行精炼。先看老师给及格,同学选“如果老师给及格就接受,如果老师给不及格就报复”这个均衡。这是不是一个子博弈精炼均衡?答案是,不是。原因是,同学的战略在老师给了不及格时,不构成纳什均衡。因为即使老师真挂了他,进行报复对他来说也不是最优反应。再看老师给不及格,同学选“如果老师给及格就报复,如果老师给不及格就接受”这个均衡,它是不是精炼均衡呢?显然它也不是,因为如果老师真给了及格,那么同学就不应该选择不接受。这样一圈下来,只有一个均衡可以在所有子博弈上都构成精炼均衡,那就是老师给不及格,同学选“无论老师是否给及格都接受”——这点我希望同学们记住了。所以如果我期末给了大家不及格,大家一定不要报复我!

  以上分析动态博弈的例子,可以总结为“逆向归纳法”。也就是说,看博弈的时候,我们先从最后一期看起,看此时参与人的最优选择。把不是最优的划掉,然后把这个对应的策略组合所对应的支付代入前一阶段,重新分析前一阶段参与人的最优选择。如此往复,直到倒推到博弈开始的阶段。丹麦哲人戈尔凯戈尔曾有名言说,“Life can only be understood backwards,but it must be lived forwards”,我想,用这句话来形容动态博弈的分析可能是最合适不过的吧。

  说到这儿,恐怕有些同学会比较迷糊。为什么我们在进行均衡的精炼时,还要考虑非均衡路径上的事情呢?这是不是多此一举?答案当然是否定的,事实上非均衡路径上的结果对于均衡的达成非常重要。打个比方,有句笑话说“致富的秘诀都写在刑法上”,但为什么现实中我们并没有按照这些方法去致富呢?答案就是刑法告诉了你如果采用这些非均衡路径上的策略,你会有什么后果。所以你也就只能乖乖选择你的均衡策略了。

  3、完全信息动态博弈举例

  下面我们可以来看几个例子。第一个例子是宠坏孩子。这个故事说的是一对父子之间的事情。在这场博弈中,孩子可以选择淘气或者不淘气。如果孩子不淘气,则两人相安无事,各得效用1。如果孩子淘气,那么父亲可以选择是否对其进行惩罚。如果不惩罚,则孩子得逞,得效用2,而父亲则得效用0;如果惩罚,那么“打在儿身,痛在父心”,两人各得效用-1。

  同学们可以试着画一下这个博弈的博弈树,找一下这个博弈中两个参与人的策略。需要注意的是,这里父亲只有一个信息集,因为他只有在看到孩子淘气时,才需要选择是否惩罚儿子,而看到孩子乖巧的样子,他不必要进行这样的选择。这样,孩子和家长的策略其实都是两个。通过简单的分析,我们可以发现博弈有两个均衡:“孩子不淘气,父亲惩罚孩子”,以及“孩子淘气,父亲不惩罚孩子”。运用子博弈精炼纳什均衡,很容易知道,只有后一个均衡是精炼的,而前一个均衡在父亲开始的子博弈中并不构成纳什均衡。

  宠坏孩子博弈的结论虽然很简单,但其含义却是发人深省的。正是父亲的慈爱,最终会宠坏了孩子。而在现实中,我们也会遭遇很多类似的例子。例如著名转型经济学家科尔奈(Kornai)曾提出过一个“预算软约束”理论来分析社会主义国家的政企关系。他指出,由于社会主义国家的企业多数是国有的,因此政府普遍存在着一种“父爱主义”。当企业亏损时,政府往往不会让其破产清算,而会采用信贷、补贴等方法,对其进行援助。由于这种“预算软约束”的存在,导致社会主义国家的国有企业没有积极性努力经营,因此效益低下。其实从博弈论的角度看,“预算软约束”本质上就是父爱性的政府宠坏了国有企业这个孩子的故事。如果一旦国有企业出现亏损,政府就进行托底,那么国有企业就不会有激励改善经营绩效,实现扭亏为盈,这就是国有企业效益长期低下的原因。针对这点,要让国有企业的绩效实现根本的改善,就必须从根本上实现政企分开,让企业切实变成自负盈亏的市场主体。

  另一个例子是三国里的“郭嘉遗计定辽东”。前几年有一句流行语,叫做“感谢郭嘉”。我想,对于我们来说,这不过是一句调侃,但对于曹操来说,这句话却是十分有深意的。自从二十六岁追随曹操开始,郭嘉在平吕布、灭袁术、战官渡等一系列斗争中都充分显示出了其卓越的才华。公元207年,被曹操逼得走投无路的袁绍之子袁熙和袁尚远投辽东,希望勾结辽东的公孙康共同抵抗曹操。要不要远涉辽东,彻底扫平袁氏,成为了曹军当中争论的焦点。此事的郭嘉,由于长年从征过度操劳,生命已经即将走到了尽头。临死之前,他用密信告诉曹操不要出征辽东就能不战而胜。曹操听从了郭嘉,在许昌按兵不动。果然,不久后辽东的公孙康就杀了二袁,并向曹操臣服。这就是著名的“郭嘉遗计定辽东”。

  对于三国迷来说,“郭嘉遗计定辽东”是一个奇计,但其实如果你熟悉博弈论,那就会发现它也不是那么神秘。这个博弈中,其实有三个参与人:曹操、二袁,以及公孙康。曹操是先行动的,他可以决定是否征讨辽东。看到了曹操的行动后,二袁和公孙康要进行的就是一场同时的静态博弈了,他们要各自决定是否与对方联合,一致抗曹。而是否抗曹的收益,取决于曹操是否来犯。如果曹操真的打来了,那么双方联合的收益就高于不合作。而如果曹操不打来,那么双方其实就会陷入一个囚徒困境,无论对方如何,先动手,把对方干掉,完全掌控辽东,都是对自己有利的。根据这一分析,我们就可以得到结论,如果曹操来犯,那二袁和公孙康就会联合;而如果曹操不来犯,他们就会内讧。给定这个结论,我们再反推到曹操的决定,就可以看到,曹操选择按兵不动是最好的。郭嘉劝曹操按兵不动,其中的奥秘就在这儿。

  值得玩味的是,后来曹操在赤壁铩羽而归后,曾大哭道:“若奉孝在,决不使吾有此大失也!”不少人都认为曹操的这一行为显得很虚伪。但如果我们分析赤壁大战前后的局势,并把他与“郭嘉遗计定辽东”时的情形进行对比,就会意识到曹操此举其实并非完全虚伪。当时刘备和孙权貌合神离,如果曹操按兵不动,采取观望态度,那么很可能孙刘之间会先发生内讧。此时曹操再趁火打劫,恐怕三国的历史就要改写了。

  (四)不完全信息博弈

  1、海萨尼转换和贝叶斯更新

  到目前为止,我们考虑的博弈都是完全信息的。但现实中,很多博弈的信息是不完全的。针对这一问题,我们如何考虑呢?关于不完全信息的博弈问题,处理起来真是比较难的,作为一节介绍性的课,我不能作太多的展开。我只希望通过一些例子,来帮助大家建立一些概念,等以后遇到了具体的问题,大家再去找相关的参考书进行学习。

  我们在介绍博弈论发展史的时候,已经说到过,真正的不完全信息博弈要处理的是不确定性,是很难实现的。传奇般的海萨尼用了一个trick,在引入了“上帝”后,把不完全信息博弈变成了不完美信息博弈,才让这类博弈变成了可处理的。那么,现在这类博弈的问题就在于,如何鉴别出上帝究竟给每个参与人选择了什么样的类型。

  在博弈中,参与人是如何做的呢?不外乎就是“听其言、观其行”,根据对方已经采取的行动来进行判断,或者用时髦的语言,叫做“贝叶斯更新”(Bayesian updating)。例如,我们班里来了一个很文静的女生,你的第一判断会是什么呢?这一定是一个淑女!用统计学的语言讲,你对她是淑女的判断有一个先验概率,例如80%。而有一天,你看到她吃相很难看,那么你对她的好印象就会降低了。略微用些数学计算。假设你认为一个淑女,吃相很难看的概率只有10%;而一个女汉子吃相很难看的概率有90%,那你现在认为她是淑女的概率就骤降到了31%。为什么呢?因为吃相难看,无非两种可能:一种是她真是淑女,偶尔吃相难看了一把,这种可能总共为80%×10%=0.08;另一种是她就是个女汉子,这种可能为20%×90%=0.18。总体来说,发生吃相难看这件事的概率就是0.08+0.18=0.26。而在发生吃相难看这件事后,反推她是淑女的概率呢?就是0.08在0.26里占的比例,就是31%。

  在不完全信息博弈中,参与人都是通过对手的各种行动,不断更新这对于对手类型的判断。有时候,可以形成对对方的完整判断,例如如果我们假设好人不做坏事,那么看到一个人做了一件坏事,就马上可以断定他不是好人;而有些时候,我们只能做出一个概率判断,我们把它叫信念(belief)。在不同的信念下,参与人会做出不同的策略选择。在均衡时,所有的策略选择应该是与其对应的信念判断相一致的,在这个时候,就得到了所谓的“贝叶斯均衡”。

  关于不完全信息博弈,我们可以举很多例子。例如,寓言中的黔驴技穷,就是一个不完全信息博弈的例子。由于贵州本来没有驴,所以老虎看到个头巨大的驴开始也会吓一跳,这说明在老虎的先验判断中是很害怕驴子的。但随着不断观察,老虎对于驴子的判断在不断进行贝叶斯更新。最后,它发现驴子不过如此,就选择了一个与信念相一致的策略:吃掉它!又如,所谓的“周公恐惧流言日,王莽谦恭未篡时”,就是说人们对周公的先验概率很糟,而对王莽的先验概率则很好。但是随着后来事情的发展,贝叶斯更新告诉我们,周公其实是个好同志,而王莽则是个野心家。这说明,了解一个人其实不是那么简单的,所谓“画龙画虎难画骨,知人知面不知心”,要看透一个人,还是要长期地看,长期地进行贝叶斯更新。

  2、信号传递和信息甄别

  由于在现实中我们经常遇到不完全信息博弈,所以就有人开发了很多方法来对其进行处理。在现实中,有两个常用的方法来处理不完全信息问题,一个是信号传递(Signaling),一个是信息甄别(Screening)。

  先看信号传递。这是有诺贝尔经济学奖得主迈克尔·斯宾塞(Michael Spence)提出来的。与很多诺奖得主相比,斯宾塞的作品其实并不多。事实上,他的兴趣点似乎也不在纯粹的经济研究,而在于政策研究和社会活动。他曾一直相当哈佛校长,但没有成功。现在他的兴趣是为中国发展提供建议。最近,他和林重庚教授一起做的一项研究刚刚获得了中国经济学的最高奖——孙冶方奖。一个外国人,不远万里来到中国,得到了中国经济学的最高奖,这是什么精神啊!

  言归正传,说信号模型。这是个什么东西呢?一言蔽之,就是教育其实是一种信号。斯宾塞指出,在学校教育中学到的知识,有很多是没有用的,那为什么人们还要花心思去上很多学呢?他的理由是,这是为了把高能力者和低能力者区分开。我们知道,读书是很痛苦的。但是对于高能力者来说,这种痛苦要小一些,而对低能力者来说,痛苦要大一些。这种差别就为通过教育对人的能力进行区分提供了机会。用人单位没有办法直接判断人的能力,但是可以通过看人的教育来判断能力——只有高能力的人才会为了获得好工作而去多接受教育,而对低能力者来说,尽管也可以通过混学历来骗得一份好工作,但这种“混”对他们来说就已经是得不偿失、生不如死。所以,在一个分离均衡下,高能力者就多上学,拿高工资;低能力者就少上学,拿低工资。

  信号博弈的例子是很多的,我们可以举一个历史的例子。在西汉初年,刘邦平定了天下。作为西汉的开国功臣,萧和是个廉洁的官员,十分勤政爱民。但刘邦却对此很不高兴,经常找他的麻烦。萧和对此表示不解,他手下的人就对他说“皇上这是担心你作乱,看你勤政爱民,不贪不占,他就更担心了!为了让皇上放心,你还是要贪一点啊。”于是萧和就听从了这个建议,开始贪污,刘邦也从此不再找他麻烦了。在这个故事中,刘邦和萧和其实在进行一场不完全信息博弈。刘邦不知道萧和的志向,但他知道一般想得天下的人都会爱惜自己的名声,所以萧和越清廉、越勤政,他就越不放心。而当萧和用贪污来自黑后,就相当于向刘邦发送了一个自己没有异心的信号。刘邦接受到这个信号后,进行了贝叶斯更新,确认其没有异心,于是也就放过他了。

  再看信息甄别。这是信息少的一方获取信息的一个办法。例如,我们在就业市场上经常看到,去投某地的简历都要求985、211、“双一流”毕业。为什么要这样呢?为什么不能按照投简历者的能力来录用呢?答案是,用人单位没有这么多时间和精力来识别。因此他们就设立一个标杆。用和前面信号博弈一样的分析,我们可以看到985、211、“双一流”毕业更容易可能是高能力者,因此他们被录用的可能也就更大。

  信息甄别的例子也很多。例如,中国古代有个告御状的制度。如果老百姓遇到了重大冤屈,可以直接到皇帝这儿告状。但是如果所有人都去皇帝那儿告状,那么皇帝肯定要忙死了,所以必须对来告状的人进行甄别。怎么甄别呢?一个办法叫“滚钉板”,告状的人必须从钉板上滚过去。显然,一般人是不能忍受这样的痛苦的。而如果能够忍受这种巨大的痛苦,那就说明肯定有天大的冤枉,皇帝就要亲自来审理。通过这种机制,皇帝就可以把真正有冤的人甄别出来。在“清末四大奇案”的“杨乃武与小白菜”案中,就是杨乃武的姐姐滚钉板,感动了慈禧太后亲自审理案件,才最后让已成了铁案的案子翻了盘。

  滚钉板的例子看似残忍,但其实其中的思路是颇为值得借鉴的。例如,现在很多电商平台都在为恶意投诉太多而烦恼。怎么甄别恶意投诉与正常投诉呢?其中就可以借鉴“滚钉板”的设计。例如,想投诉的话,要付一万块,那么估计就没有恶意投诉了。当然,如果只是这样同时提高所有人的成本,可能真想投诉的人也不来投诉了,这就要求我们设计成本返还机制。这些后话,我们以后具体再讲。

  3、略论FRAND费率定价的“事后仲裁法”

  最后,我想举一个标准必要专利的FRAND费率定价中的例子作为结束。在涉及标准必要专利的案件中,确定专利费用的价值是很困难的。针对这一问题,Lemley和Shapiro在2013年的论文中提出了一种“事后仲裁”的观点。

  “事后仲裁法”的思路很简单:标准制定组织成立一个由熟悉行业和技术状况,以及相关法律的专业人士组成的仲裁处。专利持有人和专利使用人事先承诺,当发生有关许可费的纠纷时,双方不诉诸于法庭,而是向仲裁处寻求仲裁。具体来说,纠纷双方各自向仲裁处提交一个自己认为符合FRAND原则的许可费率。仲裁处在收到双方提交的许可费水平后,从中选择一个许可费率作为相关SEP的FRAND许可费。

  在现实中,产生许可费纠纷的症结在于专利持有人会倾向于抬高许可费率,而专利使用人则会倾向于压低许可费率,由于信息的不完全,我们很难判断双方报价行为的合理性。而“事后仲裁法”很巧妙地以一种机制设计的思路克服了这一问题。由于仲裁人一般会十分反感纠纷的一方提出的极端报价,因此当专利持有人提出的报价过高时,他更有可能倾向于支持专利使用人的报价,考虑到这点,专利持有人就会避免报价过高。同样的,当专利使用人报价过低时,仲裁员更有可能倾向于支持专利持有人的报价,考虑到这点,专利使用人就会避免报价过低。通过这种机制,“事后仲裁法”很好地起到了诱使纠纷双方都尽可能说实话的作用,从而为确定双方公认的FRAND许可费率创造了条件。

  (五)结语

  今天已经向大家介绍了很多博弈论的知识,以及例子,其中有一些内容对大家而言可能有一些难度。我希望大家可以先记住我们思考这些问题的逻辑,而对于一些技术细节则可以慢慢学习。当然,如果你希望正规学习一下博弈论,我还是建议大家认真去修一门课,或者读几本教科书。我想,从长远来看,这样的投资对于大家来说一定会是十分有利的。

  本讲推荐阅读

  1、教科书

  迪克西特、斯克丝、赖利 著,《策略博弈》(第三版),中国人民大学出版社2012年版。

  哈林顿 著,《哈林顿博弈论》,中国人民大学出版社2012年版。(非常强烈推荐!)

  拜尔 著,《法律的博弈分析》,法律出版社1999年版。

  2、学科史(八卦)

  娜萨 著,《美丽心灵-纳什传》,上海科技教育出版社2014年版。

  齐格弗里德,《纳什均衡博弈论》,化学工业出版社2011年版。

  3、通俗读物

  迪克西特、奈尔伯夫 著,《策略思维——商界、政界及日常生活中的策略竞争》,中国人民大学出版社2013年版。

  王春永,《博弈论的诡计:日常生活中的博弈策略》,中国发展出版社2011年版。

  附录:

  1、囚徒困境的策略形式

1

  2、交通博弈的策略形式

1

  3、性别大战的策略形式

1

  4、懦夫博弈的策略形式

1

  5、智猪博弈的策略形式

1

  6、师生博弈

  扩展式:

1

  策略式:

1

  7、“宠坏孩子”博弈

  扩展式:

1

  策略式:

1

  8、“郭嘉遗计定辽东”的一个正是表述及其分析

  让我们用博弈论的观点来重新审视这个故事。在我们的博弈中,共有三个参与人:曹操、二袁和公孙康。

  假设曹操发动辽东战役需要支付的成本是1,如果赢得战争,可以获得的支付是2(从而净支付是1);如果失败,得到的支付则是0(从而净支付是-1)。在观测到曹操的选择后,二袁和公孙康都可以选择“合作”或“不合作”。

  如果曹操发动战争,而二袁和公孙康合作,那么他们将可以打败曹操,从而共享辽东的统治权,分别得到1的支付。而只要其中任意一方选择“不合作”,则他们会战败并都被杀,从而都得到-2的支付。

  如果曹操不发动战争,那么如果二袁和公孙都选择“合作”,他们也将共享辽东的统治权,分别得到1的支付。如果其中一方“合作”,另一方“不合作”,那么选择“不合作”的一方将可以独立统治辽东,获得2的支付;选择“合作”的一方则会被杀,得到-2的支付。如果双方都选择“不合作”,那么双方会两败俱伤,并无力再抵抗曹操,从而双方都会得到-1的支付。同时曹操会兵不血刃占据辽东,得到2的支付。

  我们容易画出这个博弈的博弈树:

  以上扩展式对应的策略型矩阵为:

1

  表3:矩阵A:曹操:发动战争

1

  表4:矩阵B:曹操:不发动战争

1

  如图,在“郭嘉遗计定辽东”博弈中,共有7个(纯策略)Nash均衡,分别为:

  (发动战争,(不合作,合作),(不合作,合作))、

  (发动战争,(不合作,不合作),(不合作,合作))、

  (发动战争,(不合作,合作),(不合作,不合作))、

  (不发动战争,(合作,不合作),(合作,不合作))、

  (不发动战争,(合作,不合作),(不合作,不合作))、

  (不发动战争,(不合作,不合作),(合作,不合作))、

  (不发动战争,(不合作,不合作),(不合作,不合作))

  其中,子博弈精炼的Nash均衡有两个:分别是(不发动战争,(不合作,不合作),(不合作,不合作))和(不发动战争,(合作,不合作),(合作,不合作))。在这两个均衡下,只要曹操不发动战争,二袁和公孙康就一定会起内讧。而曹操则可以,坐收渔人之利,不费一兵一卒夺取辽东。此时,三方的支付为(2,-1,-1)。

  作者为北京大学市场与网络经济研究中心研究员,《比较》经济研究中心研究部主任

  附:法律经济学第三课

责任编辑:张帆 | 版面编辑:李丽莎
  1. 分享到腾讯微博
  2. 分享到新浪微博
  3. 分享到微信朋友圈
财新传媒版权所有。如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
  1.  陈永伟(作者)
  2.  法律经济学
全选
新闻订阅:订阅后,一旦沙龙365登入更新相关内容,我们会第一时间通过发邮件通知您。
  1. 收藏
  2. 打印
  3. 放大
  4. 缩小
  5. 苹果客户端
  6. 安卓客户端
  1. 发送邮件
  2. 腾讯转发
  3. 新浪转发
    1. QQ空间
    2. 开心网
    3. 网易博客
    4. 豆瓣
    5. 鲜果网
    6. 搜狐微博
    7. 百度搜藏
    8. 谷歌书签
财新微信
沙龙365登入