在扑克牌游戏中,当有人增加赌注时,玩家们就开始在这种矛盾中挣扎。如果一个玩家只在牌好时投注,其他的玩家很快就会发现。当他增加赌注时,其他大多数玩家的反应都是弃牌,这样,他永远也赢不了大的。那些跟在后面加注的人,通常牌会更好,所以,我们可怜的玩家最后却变成大输家。为了让其他人投注,你必须让他们觉得你是在虚张声势。为了令他们相信这种可能性,适当地频繁下注会很有帮助,这样他们会认为你有时只是在虚张声势。这会导致一个有趣的困境。你希望你在虚张声势时他们弃牌,这样牌不好时也能赢。但这不会让你赢得很多。要让他们相信你,跟着你加注,你还需要让他们知道你确实是在虚张声势。随着玩家们越来越老练,说服他们跟着你下大赌注也变得越来越困难。考虑下面艾里克?林德格伦(Erick Lindgren)和丹尼尔?内格里诺(Daniel Negreanu)这两个扑克牌高手之间的高赌注的智慧赌博。……内格里诺感觉自己的牌比较小,他加注20万美元。“我已投了27万,还剩下20万,” 内格里诺说。“艾里克仔细察看了我的筹码,说,‘你还剩多少?’然后把他的全部筹码投进去”--他所有的赌注。根据特定的赌局规则,内格里诺只有90秒的时间决定是跟注还是弃牌;如果选择跟注,而林德格伦并不是虚张声势,他就可能面临输光所有钱的风险。如果选择弃牌,他就要放弃已投注的大笔金额。“我想他不可能这么蠢”,内格里诺说。“但这不是蠢。这像是向上迈了一步。他知道我知道他不会做蠢事,因此,他通过做这种似是而非的‘蠢事’,实际上使这个赌博变得更大了。”很显然,你不该和这些扑克牌冠军赌博,但你该什么时候赌一把?格劳乔?马克斯(Groucho Marx)曾经说过,他拒绝任何接收他为会员的俱乐部。同样的道理,你可能不愿接受别人提供的赌注。即使你在拍卖中赢了,你也应该为此感到担忧。因为,你是最高的出价者,这一事实意味着其他人觉得这件物品不值你出的那个价。赢得拍卖后却发现自己出价过高,这种现象称为赢家的诅咒。一个人所采取的每一个行动,都在向我们传达他所知道的信息;你应该利用这些推论和自己掌握的信息来引导自己的行动。怎样出价才能使自己赢的时候不被诅咒?这是本书第10章的话题。某些博弈规则有助于你获得平等的地位。使信息不对称交易可行的一种方法是,让拥有信息量较少的一方选择把赌注押在哪一边。如果内森?底特律事先同意,无论斯凯?马斯特森选择押在哪一边,他都会参加赌博,那么,内森的内幕消息就没什么用了。在股票市场、外汇市场和其他金融市场,人们可以自由选择把赌注押在哪一边。确实,在有些交易市场,包括伦敦股票市场,当你询问一只股票的价格时,按照规定,证券商必须在知道你打算买入还是卖出之前,同时报出买入价和卖出价。如果没有这样一个监察机制,证券商就有可能单凭自己掌握的私人信息获利,而外部投资者对受骗上当的担心,可能会导致整个市场的崩溃。买入价和卖出价并不完全一致;两者的差价称为买卖价差。在流动市场,这个买卖价差非常小,表明所有买入或卖出的订单中包含的信息都是微乎其微的。在第11章,我们将再次讨论信息的作用。博弈论可能会危害你的健康(1)博弈论可能会危害你的健康在耶路撒冷的某天深夜,两个美国经济学家(其中一个就是本书的合著者)在结束学术会议之后,找了一辆出租车,告诉司机该怎么去酒店。司机立刻就认出我们是美国观光客,于是拒绝打表;却声称自己热爱美国,许诺会给我们一个低于打表金额的价钱。自然,我们对这样的许诺有点怀疑。在我们表示愿意按照打表金额付钱的前提下,这个陌生的司机为什么还要提出这么一个奇怪的少收一点儿的许诺?我们怎么才能知道自己没有多付车钱?另一方面,除了答应按照打表金额付钱之外,我们并没有许诺再向司机支付其他报酬。假如我们打算开始和司机讨价还价,而这场谈判又破裂了,那么我们就不得不另找一辆出租车。但是,如果我们一直这样等下去,那么,一旦我们到达酒店,我们讨价还价的地位将会大大改善。何况,此时此刻再找一辆出租车实在不易。于是我们坐车到达了酒店。司机要求我们支付以色列币2500谢克尔(相当于2 75美元)。谁知道什么样的价钱才是合理的呢?因为在以色列,讨价还价非常普遍,所以我们还价2200谢克尔。司机愤怒了。他嚷嚷着说从那边来到酒店,这点钱根本不够用。他不等我们说话就用自动装置锁死了全部车门,按照原路没命地开车往回走,一路上完全无视交通灯和行人。我们被绑架到贝鲁特去了?不是。司机开车回到出发点,非常粗暴地把我们赶出车外,一边大叫:“现在你们自己去看你们那2200谢克尔能走多远吧!”我们又找了一辆出租车。这名司机开始打表,跳到2200谢克尔的时候,我们也回到了酒店。毫无疑问,我们不值得为300谢克尔花这么多时间折腾。不过,这个故事却很有价值。它描述了跟那些没有读过本书的人讨价还价可能存在什么样的危险。更普遍的情况是,我们不能忽略自尊和非理性这两种要素。有时候,假如总共只不过要多花20美分,更明智的选择可能是到达目的地之后乖乖付钱。博弈论可能会危害你的健康(2)这个故事还有第二个教训。我们当时确实是考虑不周,没进一步细想。设想一下,假如我们下车之后再讨论价格问题,我们的讨价还价地位该有多大的改善。(当然了,若是租一辆出租车,思路应该反过来。假如你在上车之前告诉司机你要去哪里,那么,你很有可能眼巴巴看着出租车弃你而去,另找更好的雇主。记住,你最好先上车,然后再告诉司机你要到哪里去。)在这个故事首次出版数年之后,我们收到了以下这封信。亲爱的教授:你一定不知道我的名字,但我想你一定清楚地记得我的故事。当时,我是一个学生,在耶路撒冷兼职做司机。现在,我是一名咨询师,偶然间读到了您二位大作的希伯来语译本。你大概会觉得很有趣,我跟我的客户们也分享了这个故事。是的,那件事的确发生在耶路撒冷的一个深夜。但是,至于其他方面,我的记忆跟你们谈到的略有出入。在上课和夜间兼差当出租车司机之间,我几乎没有时间和我的新婚妻子在一起。我的解决方法是让她坐在前排座位上,陪我一起工作。虽然她没有出声,但是你们没在故事里提起她是一个很大的失误。我的计程表坏了,但你们好像不相信我。我也太累了,懒得跟你们解释。当我们到达酒店时,我索要2500谢克尔,这个价格很公平。我当时甚至还希望你们能把费用涨到3000谢克尔呢。你们这些有钱的美国人付得起50美分的小费。我真的不敢相信你们竟然想骗我。你们不肯支付公平的价格,使得我在我妻子面前难堪。虽然我穷,但我并不缺你们给的那丁点儿钱。你们美国人以为我们无论从你们那里得到点儿什么就会很开心。我就认为我们应该给你们上一课,教教你们什么叫生活中的博弈。现在,我和我妻子结婚已经20年了。当我们想到那两个为了节省20美分而花上半个小时坐在出租车里来回折腾的美国蠢蛋时,仍不禁失笑,呵呵。您真诚的,(不留名字了)说实话,我们从未收到过这样一封信。我们捏造这封信的目的在于说明博弈论中的一个关键教训:你需要了解对方的想法。你需要考虑他们知道些什么,是什么在激励着他们,甚至他们是怎么看你的。乔治?萧伯纳(George Bernard Shaw)对金科玉律的讥讽是:己所欲,亦勿施于人--他们的品位可能与你不同。在策略性思考时,你必须竭尽全力去了解博弈中所有其他参与者的想法及其相互影响,包括那些可能保持沉默的参与者在内。博弈论可能会危害你的健康(3)这使我们得到了最后一个要点:你可能以为自己是在参与一个博弈,但这只不过是更大的博弈中的一部分。总是存在更大的博弈。以后的写作形式前面的例子让我们初步领略了进行策略决策的原理。我们可以借助前述故事的“寓意”归纳出原理。在选数游戏中,如果你不清楚对方的目的是什么,就猜48吧。再回想一下理查德?哈奇,他能够预测出所有将来的行动,从而决定他该怎样行动。妙手传说告诉我们,在策略里,就跟在物理学中一样,“我们所采取的每一个行动,都会引发一个反行动”。我们并非生活于一个真空世界,也并非在一个真空世界中行事。因此,我们不能认为,当我们改变了自己的行为时,其他事情还会保持原样。戴高乐在谈判桌上获得成功,这表明“只有卡住的轮子才能得到润滑油” 。不过,坚持顽固强硬并非总是轻而易举,尤其当你遇到一个比你还顽固强硬的对手时。这个顽固强硬的对手很可能就是未来的你自己,尤其是遇到节食问题时。作战或节食时,把自己逼向死角,反而有助于加强你的决心。你可能听过“吱吱作响的车轮”这个说法--卡住的车轮更需要润滑油。当然,有时候它会被换掉。1平方英寸=0 0006平方米。《冷血》以及《给猫拴铃铛》的故事说明,需要协调和个人牺牲才能有所成就的事情做起来可能颇具难度。在技术竞赛中,就跟帆船比赛中差不多,后发的新企业总是倾向于采用更具创新性的策略,而龙头企业则宁愿模仿自己的追随者。剪刀、石头、布游戏指出,策略的优势在于不可预测性。不可预测的行为可能还有一个好处,就是使人生变得更加有趣。出租车的故事使我们明白了博弈中的其他参与者是人,不是机器。自豪、蔑视或其他情绪都可能会影响他们的决策。当你站在对方的立场上时,你需要和他们一样夹杂着这些情绪,而不是像你自己那样。我们当然可以再讲几个故事,借助这些故事再讲一些道理,不过,这不是系统思考策略博弈的最佳方法。从不同角度研究一个主题会更见效。我们每次只讲一个原理,比如承诺、合作和混合策略。在每种情况下,我们还筛选了一些以这个主题为核心的故事,直到说清整个原理为止。然后,读者可以在每章后面所附的“案例分析”中运用该原理。博弈论可能会危害你的健康(4)多项选择我们认为,几乎生活中的每件事都是一个博弈,虽然很多事情可能第一眼看上去并非如此。请思考下面一道选自GMAT(工商管理硕士申请考试)的问题。很不幸,版权批准条款禁止我们采用这一问题,但这并不能阻止我们。下面哪一个是正确答案?a 4 平方英寸 b 8 平方英寸c 16平方英寸d 16 平方英寸e 32 平方英寸好,我们清楚你不知道题目对你有点儿不利。但我们认为运用博弈论同样可以解决这个问题。案例讨论这些答案中较为奇怪的是c选项。因为它与其他答案如此不同,所以它可能是错误的答案。单位是平方英寸,这表明正确答案中有一个完全平方数,例如4 和16 。这是一个很好的开始,并且是一种很好的应试技巧。但我们还没有真正开始运用博弈论。假设出题的这个人参与了这个博弈,这个人的目的是什么呢?他希望,理解这个问题的那些人能够答对,而不理解这个问题的那些人答错。因此,错误的答案必须要小心设计,以迷惑那些真正不知道正确答案的人。例如,当遇到“一英里 等于多少英尺 ?”的问题时,“16 ”的答案不可能引起任何考生的关注。1英里=1 6093公里。1英尺=0 3048米。1英寸=0 0254米。反过来,假设16平方英寸确实是正确的答案。什么问题的正确答案是16平方英寸,但又会使有些人认为32 是正确答案?这样的问题并不多。通常,没有人会为了好玩而把 加到答案中。就像没有人会说:“你看到我的新车了吗--1加仑油可以走10 英里。”,我们也认为不会。因此,我们确实可以把16从正确答案中排除。现在,我们再回过来看看4 和16 这两个完全平方数。暂且假设16 平方英寸是正确答案。那问题就有可能是“半径为4的圆的面积是多少?”正确的圆的面积公式是 r2。但是,不太记得这个公式的人很可能会把它与圆的周长公式2 r混淆。(是的,我们知道,周长的单位是英寸 ,不是平方英寸,但犯错误的人未必能意识到这个问题。)博弈论可能会危害你的健康(5)注意,如果半径r=4,那么2 r就是8 ,这样的话,考生就会得出错误的答案即b选项了。这个考生也有可能混淆后又重新配成公式2 r2,从而得出32 或者e选项为正确答案。他也有可能漏掉 ,结果得出c选项;或者他可能忘记将半径平方,简单地把 r用做面积公式,结果得出a选项。总之,如果16 是正确答案,我们就可以找到一个使所有答案都有可能被选的合理的题目。对出题者而言,它们都是很好的错误答案。如果4 是正确答案(那么r=2)又会怎么样?现在,想想最常见的错误--把周长和面积混淆。如果学生用了错误公式2 r,他仍然能得到4 ,虽然单位不正确。在出题者看来,没有什么事情比允许考生用错误的推算得到正确的答案更糟糕了。因此,4 是一个很糟糕的正确答案,因为它会令太多不知所为的人得满分。至此,我们分析完了。我们信心十足地认为正确答案是16 。而且我们是正确的。通过揣摩出题者的目的,我们可以推断出正确的答案,甚至常常不用看题目。现在,我们并不是建议你在参加GMAT或其他考试时为了省事甚至连题目都不看。我们认为,如果你聪明到足以了解这一逻辑,那么,你很可能也知道圆面积的公式。但是你却一直都不知道这个公式。有时候还会出现一些这样的情况:你不明白其中一个答案的意思,或者这个问题的知识点不在你的课程范围内。当你遇到这些情况时,回想一下这个考试博弈可能有助于你得出正确答案。妙趣横生博弈论第2章逆推可解的博弈该你了,布朗该你了,布朗连环漫画《史努比》中有一个反复出现的主题,说的是露西将一个足球按在地上,招呼查理?布朗跑过去踢那个球。到最后一刻,露西拿走了足球。查理?布朗因为一脚踢空,仰面跌倒,这使得心怀不轨的露西高兴得不得了。任何人都会劝告查理不要上露西的当。即便露西去年(以及前年和大前年)没有在他身上玩过这个花招,他也应该从其他事情了解她的性格,完全可以预见到她会采取什么行动。虽然在查理盘算要不要接受露西的邀请去踢球的时候,露西的行动还没有发生。不过,单凭她的行动还没有发生这一点,并不意味着查理就应该把这个行动看做是不确定的。他应该知道,在两种可能的结果中,让他踢中那个球以及看他仰面跌倒,露西偏好于后者。因此,他应该预见到,一旦时机到了,露西就会把球拿开。露西会让他踢中那个球的逻辑可能性实际上对他毫无影响。查理对这样一种可能性仍然抱有信心,套用约翰逊博士描述的再婚特征,是希望压倒经验的胜利。查理不应该那样想,而应该预见到接受露西的邀请最终会不可避免地让自己仰面跌倒。他应该拒绝露西的邀请。策略互动的两种方式策略互动的两种方式策略博弈的本质在于参与者的决策相互依存。这种相互作用或互动通过两种方式体现出来。第一种方式是序贯发生,比如查理?布朗的故事。参与者轮流出招。当轮到查理的时候,他必须展望一下他当前的行动将会给露西随后的行动产生什么影响,反过来又会对自己以后的行动产生什么影响。第二种互动方式是同时发生,比如第1章的囚徒困境故事。参与者同时出招,完全不理会其他人的当前行动。不过,每个人必须心中有数,明白这个博弈中还存在其他积极的参与者,而这些人反过来同样非常清楚这一点,依此类推。从而,每个人必须将自己置身他人的立场,来评估自己的这一步行动会招致什么后果;其最佳行动将是这一全盘考虑的必要组成部分。一旦你发现自己正在参与一个策略博弈,你必须确定其中的互动究竟是序贯发生的还是同时发生的。有些博弈,比如足球比赛,同时具备上述两类互动元素,这时你必须确保自己的策略符合整个环境的要求。在本章,我们将初步介绍一些有助于参与序贯行动博弈的概念和法则;而同时行动博弈则是第3章的主题。我们从非常简单、有时候是刻意设计出来的例子开始,比如查理?布朗的故事。我们故意这么做,是因为这些故事本身并不太重要,正确的策略通常也可由简单的直觉就能发现,而这么做却可以更加清晰地凸现故事中蕴涵的思想。我们所用的例子将在案例分析及以后的章节中变得越来越接近现实生活,也越来越复杂。∷第一条策略法则序贯行动博弈的一般原则是,每一个参与者必须推断其他参与者接下来的反应,并据此盘算自己当前的最佳行动。这一点非常重要,值得确立为一条基本的策略行为法则。法则1:向前展望,倒后推理。展望你的初始决策最后可能导致什么后果,利用这个信息确定自己的最佳选择。在查理?布朗的故事里,做到这一点对所有人来说应该都不费吹灰之力(只有查理?布朗例外)。查理只有两个选择,其中一个选择会导致露西在两种可能行动之间进行决策。大多数策略局势都会涉及一个更长的决策序列,每个决策又对应着几种选择。在这样的博弈中,涵盖博弈中全部选择的树图作为一种视觉辅助工具,有助于我们进行正确推理。现在我们就来演示一下如何运用这些树。决策树与博弈树(1)决策树与博弈树即使一个孤立的决策者,置身于一个有其他参与者参加的策略博弈中,也可能会面对需要向前展望、倒后推理的决策序列。例如,走在黄树林中的罗伯特?费罗斯特(Robert Frost):两条路在树林里分岔,而我,我选择人迹罕至的那一条,从此一切变了样。1我们可以对此图示如下:到此未必就不用再选择了。每一条路后面可能还会有分岔,这个图相应地会变得越来越复杂。以下是我们亲身经历的一个例子。从普林斯顿到纽约旅行会遇到几次选择。第一个决策点是选择旅行的方式:乘公共汽车、乘火车还是自己开车。选择自己开车的人接下来就要选择走费拉扎诺(Verrazano)桥、霍兰(Holland)隧道、林肯(Lincoln)隧道还是乔治?华盛顿(George Washington)桥。选择乘火车的人必须决定是在纽瓦克(Newark)换乘PATH列车,还是直达纽约Penn车站。等进入纽约,搭乘火车或公共汽车的人还必须决定怎样抵达自己的最后目的地,是步行、乘地铁(是本地地铁还是高速地铁)、乘公共汽车还是搭出租车。最佳选择取决于多种因素,包括价格、速度、不可避免的交通堵塞、纽约市最终目的地所在,以及对新泽西收费公路上的空气污染的厌恶程度,等等。这个路线图描述了你在每个岔路口的选择,看起来就像一棵枝繁叶茂的大树,所以称为“决策树”。正确使用这样一张图或一棵树的方法,绝不是选择那个第一个分支看上去最好的路线。例如,当各种方式的其他方面相同时,你会更喜欢自己开车而不是乘火车,然后“到达下一个岔路口的时候再穿过费拉扎诺桥。”相反,你应该预计到以后将面临的决策,然后根据这些决策做出你的早期选择。举个例子,如果你想要去市区,那么乘PATH列车会比开小汽车要好,因为乘PATH列车可以从纽瓦克直达市区。决策树与博弈树(2)我们可以通过下图来描述一个策略博弈中的选择。不过,现在图中出现了一个新元素。我们遇到了一个有两个人或更多人参与的博弈。沿着这棵树的各个决策点,可能是不同的参与者在进行决策。每个参与者在前一个决策点做决策时必须向前展望,不仅要展望他自己的未来决策,还要展望其他参与者的未来决策。他必须推断其他人的下一步决策,办法就是想象自己站在他们的位置,按照他们的思维方式思考。为了强调这个做法与前一个做法的区别,我们把反映策略博弈当中决策序列的树称为博弈树,而把决策树留做描述只有一个人参与的情形。∷足球赛和商界中的查理?布朗尽管本章开篇提到的查理?布朗的故事非常简单,不过把故事转化成以下的图示,你就可以更加熟悉博弈树。在博弈起点,当露西发出邀请时,查理?布朗面临着是否接受邀请的决策。假如查理拒绝邀请,那么这个博弈到此为止。假如他接受邀请,露西就面临两个选择,一是让查理踢球,二是把球拿开。我们可以通过在路上添加另一个分叉的方法说明这一点。正如我们先前所述,查理应该预计到露西一定会选择上面那个分支。因此,他应该置身于她的立场,从这棵树上剪掉下面那个分支。现在,如果他再选择自己上面的那个分支,结果一定是仰面跌倒。因此,他最好选择下面的分支。我们用加粗的带箭头的分支来表示这些选择。你是否认为这个博弈太微不足道?以下是它在商业领域的一个版本。设想以下情景,已成年的查理目前正在(假设)弗里多尼亚国(Freedonia)度假。他和当地的一个生意人弗里多(Fredo)聊了起来,弗里多谈起了一个只要投入资本就可以获利的绝妙机会,他大声地说道:“你给我10万美元,一年后我会把它变成50万美元,到时候我和你平分这笔钱。所以,你将在一年内获得两倍以上的钱。”弗里多所说的机会确实令人向往,何况他很乐意按照弗里多尼亚的法律规定签订一份正规合同。但弗里多尼亚的法律有多可靠?如果一年后弗里多卷款潜逃,已经返回美国的查理能向弗里多尼亚的法院要求执行这份合同吗?法院有可能会偏向自己的国民,或者可能效率很低,又或者可能被弗里多收买。因此,查理实际上是在和弗里多进行一场博弈,博弈树如下图所示。(注意,如果弗里多遵守合同,他会付给查理25万美元;这样,查理获得的利润等于25万美元减去初始投资10万美元,即15万美元。)你认为弗里多会怎样做?在没有十足把握相信弗里多承诺的情况下,查理应该预计到弗里多一定会卷款潜逃,就像小查理确定露西一定会把球拿开一样。事实上,两个博弈的博弈树在本质上是相同的。但是,面临这样的博弈时,多少“查理”做出了错误的推理?决策树与博弈树(3)有什么理由可以让查理相信弗里多的承诺?或许,弗里多同时也和其他一些企业做交易,这些企业需要在美国融资或者出口商品到美国去。那么,查理很有可能会毁坏弗里多在美国的声誉或者直接扣押他的货物,以此向弗里多实施报复。所以,这个博弈可能只是更大的博弈的一部分,或许是一个持续的互动过程,这一点确保了弗里多的诚信。但是,在我们上述说明的一次性博弈中,这种倒后推理的逻辑非常明了。我们希望借助这个博弈得到三点结论。第一,不同的博弈可以采用相同的或者极为相似的数学形式(博弈树,或者在以后章节中提到的用来描述博弈的图标)。用这种形式来进行思考反过来又突出了它们的相似之处,使你更容易将你掌握的关于一种情形下的博弈知识运用到另一种情形中去。这是所有学科理论的重要功能:它提炼出各种明显不同背景的本质相似性,使得一个人能够以一种统一而简单化的方式对各种情形进行思考。许多人本能地讨厌所有理论。但我们认为这是一个错误的反应。当然,理论确实有其局限性。特定的背景和经历通常能大大扩展或修正一些理论方法。但是,抛弃所有理论就相当于抛弃一个有价值的思维出发点,一个克服难题的立足点。当你进行策略思维时,你应该把博弈论当做你的朋友,而不是一个怪物。第二,弗里多应该认识到,具有策略思维的查理一定会怀疑他所说的话的可靠性,而且根本不会投资,这样,弗里多就失去了赚取25万美元的机会。因此,弗里多有强烈的动机使其承诺可以置信。作为一个生意人,他对弗里多尼亚国脆弱的法律体系几乎没有任何影响力,因此并不能以此来打消这位投资者的顾虑。他还有其他办法让自己的承诺可信吗?我们将会在第6章和第7章考察常见的可信问题,并介绍一些达到可信的方法。第三,或许也是最重要的一个结论,涉及对参与者不同备择选项不同结果的比较。一个参与者获得更多并不总是意味着另一个参与者获得更少。查理选择投资而弗里多选择遵守合同这种对双方都有利的情形,优于查理根本不投资的情形。决策树与博弈树(4)和体育比赛或者其他比赛不同,博弈不一定非要有胜出者和失败者;用博弈论的术语来说就是,它们并不一定是零和博弈。博弈可以出现双赢和双输的结果。事实上,共同利益(比如,若弗里多有办法给出一个遵守合约的坚实承诺,则查理和弗里多双方都能获益)和冲突(比如,若弗里多在查理投资之后卷款潜逃,查理就要付出昂贵的代价)的结合同时存在于商界、政界以及社会交往活动的大多数博弈中。这正是使得分析这些博弈如此有趣并具有挑战性的因素。∷更复杂的树我们从政界找到了一个例子,用来介绍更复杂一点的博弈树。有一幅讽刺美国政界的漫画谈及,国会希望增加建设经费支出,而总统们则希望削减国会通过的这些巨额预算。当然,在这些经费支出中,有总统们喜欢的也有总统们不喜欢的,而他们也只想削减那些他们不喜欢的经费支出。要达到这个目的,总统们必须有削减一些特定预算项目的权力或者逐项否决权。1987年1月,罗纳德?里根在国情咨文讲话中口若悬河地说道:“给我们和43位州长一样的权力--逐项否决权,我们就可以减少不必要的经费支出,削减那些永远不应独自存在的项目。”乍一看,似乎拥有法案的部分否决权只会增强总统的权力,而永远不会给他带来任何不好的结果。但是,总统没有这个权力可能会更好。原因在于,逐项否决权的存在会影响到国会通过法案时的策略。以下这个简单的博弈说明了逐项否决权将如何影响国会的策略。为便于说明,假设1987年的局势如下。有两个支出项目正在考虑中:城市重建(U)和反弹道导弹系统(M)。国会喜欢前者,而总统喜欢后者。但相对于维持现状来说,双方都更喜欢让两个法案都通过。下面的表格展示了两个参与者对可能出现的情况的评价,其中4代表最好,1代表最差。结果国会总统U和M都通过33只有U通过41只有M通过14U和M都未通过22当总统没有逐项否决权时,该博弈的博弈树如下图所示。总统会签署同时包括项目U和项目M的法案,或者只包括项目M的法案,但会否决只包括项目U的法案。国会很清楚这一点,所以会选择两个项目都包括的法案。同样,我们还是用加粗的带箭头的分支来表示每一个决策点处的选择。注意,我们有必要在总统必须做出选择的所有决策点处都做这样的标记,即使其中一些决策点处已经标记了国会的上一步选择。这么做的理由在于,国会的实际行动深受其对每种选择之后总统将如何行动的算计的影响;要说明这一逻辑,我们必须把所有逻辑上可能的情况下总统的行动选择表示出来。我们对该博弈的分析结果是,双方都只得到了自己次佳的结果(评价为3)。决策树与博弈树(5)接下来,我们假设总统拥有逐项否决权。于是该博弈变成了如下所示:现在,国会预料到若自己让两个项目都通过,则总统就会选择否决项目U,只留下项目M。因此,国会的最佳行动是,要么只通过项目U,然后眼睁睁地看着它被否决,要么哪个项目也不通过。或许,如果国会可以借助总统否决获得政治积分,那么国会可能会倾向于前一种行动,但总统同样也有可能通过拒绝预算而获得政治积分。我们假设两者相互抵消,于是这两个选择对国会来说是无差异的。但是,这两个选择只给双方带来了第三好的结果(评价为2)。甚至对总统而言,他得到的结果也因其拥有的额外选择自由而变得更糟。2这个博弈阐述了一个重要且具有一般性的观点。在单人决策中,更大的行动自由可能永远没有坏处。但是在博弈中,它却可能对参与者不利,这是因为行动自由的存在会影响到其他参与者的行动。与此相反,“绑住自己的双手”可能会有帮助。我们将在第6章和第7章探讨这一“承诺优势”。我们已经将博弈树的倒后推理方法运用到一个微不足道的博弈中(查理?布朗的故事),之后又扩展到一个更复杂的博弈中(逐项否决权)。无论博弈多么复杂,基本的原理仍然是适用的。但是如果在博弈树中,每个参与者在每个决策点上都有几个选择,而且每个参与者都要开展多次行动,那么,博弈树可能很快变得太过复杂,以至于难以画出或者使用。举个例子,在象棋博弈中,有20个分支从第一个决策点发散出去--白方可以将自己的八个兵中的任何一个往前走一格或两格,或者两个马中的任何一个往前走一格或两格。对应于白方的每一种选择,黑方也有20种走法,因此,我们就已经得到400种不同的路径了。从以后的决策点处发散出的分支可能会更多。要运用博弈树的方法使象棋问题得到完全解决,是大多数现存的乃至往后数十年内可能发明出来的最强大的计算机也力所不能及的。在本章后面部分,我们将讨论象棋大师是如何解决这一问题的。在这两种极端的情况之间,还有很多中等复杂的博弈,这些博弈出现在商界、政界以及日常生活中。有两个方法可以用于解决这样的博弈。第一,电脑程序可以构建博弈树并计算出结果。3或者,很多中等复杂的博弈可以通过树逻辑分析得到解决,而无须明确画出博弈树。我们将借助一个电视游戏节目中的博弈,来说明这个方法。在这个博弈中,每个参与者都尽力去比其他人玩得更好、更聪明且持续得更久。“幸存者”的策略(1)“幸存者”的策略哥伦比亚广播公司的《幸存者》节目以许多有趣的策略博弈为特征。在《幸存者:泰国》的第六集中,由两个小组或两个部落参与的游戏,无论在理论上还是在实践上,都不失为一个向前展望、倒后推理的好例子。4在两个部落之间的地面插着21支旗,两个部落轮流移走这些旗。每个部落在轮到自己时,可以选择移走1支、2支或3支旗。(这里,0支旗代表放弃移走旗的机会,是不允许的;也不允许一次移走4支或4支以上的旗。)拿走最后1支旗的一组获胜,无论这支旗是最后1支,还是2支或3支旗中的一支。5输了的一组必须淘汰掉自己的一个组员,这样,该组在以后的比赛中的能力就会削弱。事实证明,这次损失在这种情况下非常致命,因为对方部落的一个成员将继续参加比赛,争夺100万美元的最终奖金。因此,找出比赛的正确策略一定非常有价值。这两个部落名为Sook Jai和Chuay Gahn,由Sook Jai先行动。它一开始拿走了2支旗,还剩下19支。在继续读下去之前,先停下来想一想。如果你是Sook Jai部落的成员,你会选择拿走多少支旗?把你的选择记下来,然后继续往下读。为了弄明白这个游戏应该怎么玩,并且把正确策略与两个部落实际上采取的策略进行比较,注意两个十分有启迪性的小事件通常很有用。第一个小事件是,在游戏开始前,每个部落都有几分钟时间让成员们讨论。在Chuay Gahn部落的讨论过程中,其中一个成员泰德?罗格斯(Ted Rogers)--一个非裔美国软件开发人员,指出:“最后一轮时,我们必须留给他们4支旗。”这是正确的:如果Sook Jai部落面临着4支旗,他们只能移去1支、2支或者3支旗,与此相对应,Chuay Gahn部落在最后一轮中分别移去剩下的3支、2支或1支旗,最终Chuay Gahn部落在游戏中取胜。实际上,Chuay Gahn部落确实得到并正确地利用了这一机会:在面临6支旗时,他们拿走了2支。但是,还有另外一个有启发性的小事件。在前一轮,就在Sook Jai从剩下的9支旗中拿走3支返回后,他们中的一个成员斯伊?安(Shii Ann)--一个好辩的、能言善道的、很为自己的分析能力感到自豪的参赛者,突然意识到:“如果Chuay Gahn现在取走2支旗,我们就糟了。”所以,Sook Jai刚才的行动其实是错误的。他们本应该怎样做呢?“幸存者”的策略(2)斯伊?安或者Sook Jai部落的其他成员本来应该像泰德?罗格斯那样推理,除了实践在下一轮给对方部落留下4支旗这一逻辑推理之外。你怎样才能确保在下一轮时给对方留下4支旗呢?方法是在前一轮中给对方留下8支旗!当对方在8支旗中取走3支、2支或1支时,接下来轮到你时,你再相应地取走3支、2支或1支,按计划给对方留下4支旗。所以,Sook Jai本来可以只在剩下的9支旗中取走1支,从而扭转局面。虽然斯伊?安的分析能力很强,但为时已晚!或许泰德?罗格斯有着更好的分析洞察力。但确实是这样吗?Sook Jai怎么会在前一轮面临9支旗呢? 因为Chuay Gahn在前一轮中从剩下的11支旗中取走了2支。泰德?罗格斯的推理本来应该再倒后一步。Chuay Gahn本来可以取走3支旗,留给Sook Jai 8支旗,这样,Sook Jai就会面临输掉比赛的局面。同样的推理可以再倒后一步。为了给对方部落留下8支旗,你必须在前一轮给对方留下12支旗;要达到这个目的,你还必须在前一轮的前一轮给对方留下16支旗,在前一轮的前一轮的前一轮给对方留下20支旗。所以,Sook Jai本来应该在游戏开始时只取走1支旗,而不是实际上取走的2支。这样的话,Sook Jai就可以在连续几轮中分别给Chuay Gahn留下20支、16支……4支旗,确保取胜。是不是在所有博弈中,先行者总是能确保取胜呢?不是。如果在旗子游戏中,开始时的旗子是20支而不是21支,那么后行者一定获胜。另外,在一些博弈中,比如3×3的连环游戏,每个参与者都可以通过正确的策略确保打成平手。这两个核心人物的命运也很有趣。斯伊?安在下一集时又一次严重判断失误,并因此出局,在16个参赛者中排名第10。泰德显得更加冷静,或许在某种程度上也更有技巧,他在倒数第五集时出局。现在来考虑一下Chuay Gahn部落在第一轮应该选择多少支旗。他们面临着19支旗。如果他们当时充分地利用了倒后推理的逻辑,他们就本应该取走3支旗,给Sook Jai留下16支旗,也就踏上了必胜之路。在比赛中局,无论对方在哪一个点犯了错误时,接下来轮到的那个部落都可以抓住主动权,从而获胜。但是很遗憾,Chuay Gahn也没有很完美地玩好这个游戏。“幸存者”的策略(3)下面的表格对博弈的每个决策点上的实际行动和正确行动进行了对比。(“不行动”表示若对手的行动是正确的,那么任何行动选择都必然失败。)你可以看到,除了Chuay Gahn在面临着13支旗时的选择是正确的之外,几乎所有的选择都是错误的。而当时Chuay Gahn一定是偶然选对的,因为在下一轮面临11支旗时,他们本应该取走3支旗,却只取走了2支。部落移动前旗子数拿走的旗子数获胜应取走的旗子数Sook Jai2121Chuay Gahn1923Sook Jai1721Chuay Gahn1513Sook Jai1412Chuay Gahn1311Sook Jai121不移动Chuay Gahn1123Sook Jai931Chuay Gahn622Sook Jai43不移动Chuay Gahn111在你苛刻评价这两个部落之前,你必须意识到,即使学会怎样玩一个非常简单的博弈,也是需要时间和经验的。我们已经在课堂上让各组学生玩过这个游戏,结果发现,常青藤联盟的一年级学生需要玩三次甚至四次后才能进行完整的推理,并且从第一步行动开始就一直采取正确的策略。(顺便问一下,当时我们叫你选择的时候,你选择了多少支旗?你是如何推理的?)顺便提一句,人们似乎通过观察别人玩博弈比自己玩博弈学得更快;也许这是因为作为一个观察者比作为一个参与者更容易把游戏看做一个整体,并冷静地对其进行推理。为了加深你对推理逻辑的理解,我们给你提供了我们的第一个“健身之旅”--你可以练习一下这些问题,以此磨炼你对策略思维的运用技能。答案请参阅本书健身之旅题解。既然你已通过这些练习而深受鼓舞,那我们就继续来考察整个博弈课堂中普遍存在的策略问题吧。博弈何以能完全逆推可解?(1)博弈何以能完全逆推可解?21支旗博弈的一个特殊性质有助于该博弈完全可解,那就是它不存在任何不确定性:不论是某些自然的机会元素,还是其他参与者的行动和能力,或者是他们的实际行动,都不具有不确定性。这似乎是很容易得出的结论,但仍需要详细阐述。首先,在博弈的任何一个决策点处,当轮到一个部落行动时,该部落清楚地知道当时的情况,也就是还剩下多少支旗。而在许多博弈中,存在一些纯偶然的元素,这些元素是自然产生的或者由概率之神决定。例如,在许多卡片游戏中,当一个玩家做出选择时,他并不确定其他人手中持有的是什么牌,虽然其他人先前的举动可能会露出一些蛛丝马迹,他可以据此推断他们手中的牌。在接下来的一些章节中,我们的例子和分析将会涉及一些包含这种自然机会元素的博弈。第二,当一个部落做出选择时,它清楚地知道对方部落的目标,那就是最终取胜。而查理?布朗也本应知道露西喜欢看到他仰面跌倒。在很多简单的游戏或体育比赛中,参与者也能清楚地知道对手或对手们的目的。但是在商界、政界以及社交活动中的博弈未必如此。在这样的博弈中,参与者的动机是自私和利他、关注正义或公平、短期考虑和长期考虑等的复杂混合体。为了弄清其他参与者将在博弈中随后的决策点处做出何种选择,有必要知道他们的目标是什么,以及存在多重目标的情况下,他们如何权衡这些目标。但你几乎永远都无法确切地知道这一点,所以你必须做有根据的猜测。你不可以假定对方有着和你一样的偏好,或者是像假设的“理性人”那样行动,你必须真正地考虑他们的处境。要站在对方的立场上并不容易,而且你的情绪卷入到自己的目标和追求常常使情况变得更复杂。我们将在本章后面部分以及本书的不同要点中,继续讨论这种不确定性。在这里,我们仅仅指出:对于其他参与者动机的不确定性问题,向客观的第三方(策略顾问)索取建议可能对你会有所帮助。博弈何以能完全逆推可解?(2)最后,在许多博弈中,参与者必然面临关于其他参与者选择的不确定性;为了将这种不确定性区别于机会的自然方面,如牌的分发次序或者球在不光滑的表面上反弹的方向,我们有时候把这种不确定性称为策略不确定性。21支旗博弈中不存在策略不确定性,因为每个部落都能看到并清楚地知道对方之前的行动。但是在很多博弈中,参与者同时采取行动,或者由于轮换的速度太快,参与者无法看清对方到底采取了什么行动,然后再据此做出反应。足球守门员在面对罚球时,必须在不知道射门员会把球踢向哪个方向的情况下,决定向左移还是向右移;一个优秀的射门员会一直隐藏自己的意图,直到最后一微秒,而那时守门员已经来不及做出反应了。同样的道理也适用于网球和其他运动中的发球和传球。在密封投标拍卖中,每个参与者都必须在不知道其他投标人选择的情况下做出自己的选择。换句话说,在很多博弈中,参与者们同时行动,而不是按预先规定的次序行动。在这样的博弈中,选择自己行动的思维方法不同于,甚至在某些方面要难于像21支旗这样的序贯行动博弈中的纯粹的倒后推理方法;每个参与者必须意识到,其他参与者是在进行有意识的选择,而且反过来也在考虑他自己在想什么,等等。在接下来的几章中,我们考虑的例子将阐述同时行动博弈的推理和解决方法。但是,在本章,我们只集中讨论序贯行动博弈,比如21支旗博弈,以及我们后面将讨论的更复杂的象棋博弈。∷人们真的是用倒后推理来求解博弈吗?沿着博弈树倒后推理是分析和求解序贯行动博弈的正确方法。那些既没有明确地这样做也没有直觉这样做的人,实际上是在损害他们自己的目标。他们应该读一读我们的书,或者聘请一位策略顾问。但那只是对倒后推理理论的一个咨询性或规范性的运用。该理论是否跟大多数科学理论一样,有着更普遍的解释价值或者积极价值呢?换句话说,我们能否在实际参与博弈时,得到正确的结果?从事行为经济学和行为博弈论这两个新奇有趣的领域的研究人员已经进行了试验,并得到了各种各样的证据。看起来最具破坏力的批判来自最后通牒博弈。这是一个最简单的谈判博弈:只有一个“要么接受,要么放弃”的提议。最后通牒博弈中有两个参与者,一个是“提议者”A,另一个是“回应者”B,还有一笔钱100美元。博弈开始时,参与者A先提出一个两人分割100美元的方案。然后参与者B决定是否同意A的提议。如果B同意,就实施这一提议,然后每个人将获得A提议的份额的钱,博弈结束;如果B不同意,那么两个人都将一无所获,博弈结束。博弈何以能完全逆推可解?(3)暂时停下来想一想。如果你是A,你会提议怎样分配100美元?现在考虑一下,如果两位参与者是传统经济理论观点下的“理性人”,即,每个人只关心自己的自身利益,且总能找到追求自身利益的最优策略,那么博弈会怎样进行下去?提议者A会这样想:“无论我提议怎样分,B都只能在接受提议或一无所获之间进行选择。(这个博弈是一次性博弈,因此B没有理由建立一种强硬的声誉;或者在将来的B可能成为提议者的博弈中,对A的行动针锋相对;或者任何诸如此类的事情。)所以,无论我的提议是什么,B都会接受。我可以给B尽可能少的钱,使自己得到最好的结果,例如只给他1美分,如果1美分是博弈规则所允许的最低金额的话。”因此,A一定会提议给B这一最低金额,而B只能选择接受。这一论证是无须画出博弈树来进行树逻辑分析的另一个例子。再停下来想想。如果你是B,你会接受1美分吗?关于这个博弈,人们已经做过大量的实验。6通常情况下,实验者让24个左右的受试者聚集在一起,并让他们随机组对。每一对都要指定一个提议者和一个回应者,然后进行一次博弈。接着再次随机组成新的组合,重新博弈。通常,参与者们不知道他们会在博弈中和谁组对。因此,虽然实验者能从同一个群体的同一种试验得到几个不同的观察结果,但其中并不存在足以影响人们行为持续关系的可能性。在这个一般性框架内,实验者尝试了许多不同的条件来分析这些条件对结果的影响。你对自己作为提议者和回应者应该怎样行动的内省,可能已让你认识到,这个博弈的实际结果应该与上述的理论预测结果不同。的确,它们之间有差异,而且通常差异很大。给予回应者的金额随着提议者的不同而不同。但是,实际提议1美分或1美元,或者低于总金额10%的情况非常罕见。平均提议金额(一半提议者提议的金额比这个金额少,一半的提议者提议的比这个金额多)在总金额的40%~50%之间;很多实验中,50∶50的分割比例是唯一最常见的提议。给予回应者少于总金额20%的提议被拒绝的概率是50%。非理性与关注他人的理性(1)非理性与关注他人的理性为什么提议者会给回应者相当大的份额呢?有三个原因可以解释这一现象。第一,提议者可能不知道如何正确地倒后推理。第二,除了尽可能赢得更多的纯粹自私的欲望之外,提议者可能还有一些其他的动机;比如他们倾向于利他的选择行动,或者关心公平问题。第三,他们可能担心回应者会拒绝较低的金额。不可能是第一个原因,因为在这个博弈中,倒后推理的逻辑实在太简单了。在比较复杂的情况下,参与者有可能无法完全地或正确地进行必要的估算,尤其是当参与者初次参与这个博弈时,就像我们在21支旗博弈中所看到的那样。但是,最后通牒博弈实在太简单了,即使对初次接触的参与者来说也是一样。所以,一定是第二个或第三个原因,或者两者兼备。早期的最后通牒实验得出的结果倾向于第三个原因。事实上,哈佛大学的艾尔?罗斯(Al Roth)及其合作者发现,如果大多数受试者的拒绝临界值一定,提议者将会选择使获取更大份额的可能性与遭到拒绝的风险达到最优平衡的提议。这表明,提议者身上具有明显的传统意义的理性。然而,我们对第二个和第三个可能性的区分,得出了一个不同的观点。为了区分利他主义和策略主义,我们使用该博弈的一个变种做了一些实验,该变种称为独裁者博弈。在独裁者博弈中,提议者独自决定怎么分割这笔钱;而对手(回应者)对这件事情根本没有发言权。结果是,独裁者博弈中提议者分给回应者的平均金额大大小于最后通牒博弈中他们所提供的平均金额,但他们分给回应者的金额又明显大于零。因此,上述两个解释都有其道理。在最后通牒博弈中,提议者的行为既有慷慨的一面,也有策略性的一面。慷慨的一面是出于利他主义还是出于对公平的关注?上述两个解释是所谓的人们关心他人的偏好的两个不同方面。这个实验的另外一个变种也有助于把这两个可能性区分开来。在之前的基本博弈中,受试者先随机组对,然后通过一种随机的方式指定提议者和回应者,例如通过抛硬币的方式。这可能使参与者有一种公平或公正的感觉。为了抛却这种感觉,该实验的一个变种通过举行一场初赛来指定受试者的角色,例如一个常识测试,然后指定获胜者为提议者。这会使提议者有一种权力感,导致他们给回应者的金额平均减少了10%。然而,平均金额仍远远大于零,这表明,在提议者的思维中有一种利他主义的元素。要记住,他们并不知道回应者的身份,因此,这一定是一种普遍的利他意识,而不是一种只关心个人福利的意识。非理性与关注他人的理性(2)个人偏好实验的第三个变种也是可能的:奉献可能会受羞耻感的驱动。伊利诺伊州立大学的杰森?达纳(Jason Dana)、耶鲁管理学院的黛莉安?凯恩(Daylian Cain)以及卡内基-梅隆大学的洛宾?道斯(Robyn Dawes)用如下的独裁者博弈变种,做了一项实验。7实验者要求独裁者对10美元进行分配。在独裁者做出分配决定之后,还没有把钱交给回应者之前,独裁者得到了如下提议:你可以得到9美元,而对方将一无所获,并且他们永远也不会知道自己曾是这个实验的一部分。大多数独裁者都接受了这一提议。他们宁愿放弃1美元,来确保对方永远不知道他们有多贪婪。(一个利他的人会更愿意给自己留9美元,把1美元给对方,而不是给自己留9美元,却让对方一无所获。)甚至当独裁者只能拿到3美元时,为了让对方一无所知,他也宁愿拿走这点儿钱。这就像为了避免给乞丐一点儿施舍,而花大笔钱穿过别的街道那样。观察一下这些实验的两个要点。第一,它们都遵循科学的标准方法:通过设计合适的变种实验来检验理论假说。人们在这里提及几个主要变种。第二,在社会科学中,多个原因通常同时存在,每个原因都能解释同一个现象的一部分。假设不一定是完全正确的或完全错误的;接受其中一个假设并不意味着排斥其他所有假设。现在,考虑一下回应者的行为。在知道接下来的提议额可能甚至更少的情况下,他们为什么还会拒绝这个提议呢?他们这么做的理由不可能是想要建立一个强硬谈判者的声誉,以便在以后的博弈中或其他分割博弈中得到较好的结果。同一对参与者不会重复地博弈,并且以后的搭档也不会获得参与者以往的行为记录。即使建立声誉的动机是隐含地表现出来的,它也必须采取更深刻的形式:回应者遵循了某个一般的行动规则,而无须在各种情况下都进行仔细的思考和算计。这种形式一定是一种直觉的行动,或者是一个情感驱动的回应。而这也的确是事实。在实验研究新诞生的一个分支领域--神经经济学中,当受试者做出各种经济决策时,实验者用功能性核磁共振成像(NMRI)或正电子发射断层扫描仪(PET)扫描了他们的大脑活动。非理性与关注他人的理性(3)当最后通牒博弈实验在该情形下进行时,实验者发现,当提议者的提议越来越不公平时,回应者的前脑岛(anterior insula)也越来越活跃。由于前脑岛对情绪(如生气、厌恶)敏感,所以它有助于解释回应者为什么会拒绝不平等的提议。相反,当接受不平等的提议时,回应者左边的前额皮质会更加活跃,这表明他在进行有意识的控制,在做自己厌恶的事和获得更多金钱之间进行权衡。8许多人(尤其是经济学家们)认为,虽然在实验室实验中,回应者可能会拒绝实验室提供的微小总额的微小份额,但在现实世界中,利益总额通常大得多,回应者再拒绝微小的份额就非常不可能了。为了检验这一说法,人们改在几个比较贫穷的国家做这个最后通牒博弈实验,在这些国家,实验金额相当于参与者几个月的收入。拒绝的可能性确实变得微乎其微了,但是提议者却没有明显变得更加吝啬。对于提议者而言,遭到拒绝的后果变得更加严重了,比他们的行为给回应者带来的后果还要严重,因此,担心遭到拒绝的提议者可能会更加谨慎地行事。虽然一些行为可以通过本能、荷尔蒙或者大脑中的情感得到部分解释,但有些行为随着文化的不同也有所不同。在不同国家所做的实验中,实验者发现,关于怎样的提议才算合理的观念,不同的文化中的差别度高达10%,但是像侵略性或强硬性这样的性质,不同的文化中的差异较小。只有一个群体与其他群体有明显的不同:在秘鲁亚马孙河畔的马奇根加部落(Machiguenga),提议者提供的份额很小(平均为26%),却只有一个提议遭到了拒绝。人类学家解释说,那是因为马奇根加人以小家庭为单位生活,他们和社会隔离,而且没有什么分享准则。与此相反,在两个国家中,提议额超过了50%;这两个国家有一种习俗,那就是当一个人好运降临时,他会十分慷慨地赠予其他人,而接受者有义务在将来更慷慨地给予回报。这个准则或习惯似乎也影响了这个实验,虽然参与者们并不知道他们将要把钱给谁或者谁将要把钱给他们。9∷公平和利他主义的演化非理性与关注他人的理性(4)从这些最后通牒博弈实验以及类似最后通牒博弈的其他实验的结果中,我们应该学到什么?基于每个参与者都只关心自身利益的假设,运用倒后推理理论所得到的结果与实验结果大相径庭。正确的倒后推理和自私自利,哪一个是错误的假设?或者是否有一个组合?它们暗示了什么?我们首先考虑倒后推理假设。在《幸存者》节目中的21支旗博弈中,我们看到,参与者没能正确地或彻底地进行倒后推理。但那是他们第一次玩这个游戏,甚至在当时,他们的讨论也显示出了短暂的正确推理。我们的课堂实验表明,学生们在玩或看别人玩这个博弈三四次之后,便学会了彻底的倒后推理。许多实验不可避免地或者基本上是有意地选择那些初次接触博弈的人作为受试者,这些人在博弈中的行动通常也是学习这个博弈的过程。现实的商界、政界和专业体育比赛中,人们对他们参与的博弈十分有经验。我们希望参与者们能积累更多的经验,不论是利用推理,还是依靠训练出来的本能,他们都能采取大体正确的策略。对于一些稍微复杂的博弈,有策略意识的参与者可以使用电脑或聘用顾问来进行推理;这种做法虽然比较少见,但一定很快就会推广开来。因此,我们相信,倒后推理仍然是我们分析这类博弈以及预测其结果的出发点。接下来,我们将在特定背景下对第一步分析做出必要的修改,我们必须认识到初学者可能会犯错误,而且某些博弈可能会变得太过复杂,以至于无法独立解决。我们认为,从这些实验性研究中得到的更重要的教训是,人们在选择时,除了考虑自身利益之外,还会考虑到许多其他因素和偏好。这使我们超越了传统经济学的范畴。在进行博弈论分析时,我们还应当考虑参与者对公平或利他主义的关注。“行为博弈论延续了理性假设,而不是抛弃了理性假设。”10这一切都在向好的方向发展;更好地理解人们的动机,可以加深我们对经济决策制定和策略互动的理解。而且这的确实实在在地发生着;在博弈论的前沿研究中,正日益将平等、利他主义及类似的动机纳入参与者的目标(甚至还包括参与人对奖励或惩罚那些遵守或违背这些规范的参与者的“第二轮”关注)。11非理性与关注他人的理性(5)但我们的推理却不应就此停步;我们应再前进一步,考虑一下为什么利他主义和公平动机,以及对违反规范者的生气或厌恶感,对人们会有如此强烈的影响?这把我们带入了思辨的王国,不过我们在演化心理学中可以找到一个看来比较合理的解释。那些向其成员灌输公平主义和利他主义准则的集团,比那些由纯粹自私的个人组成的集团更少发生内部冲突。因此,他们的集体行动更容易取得成功,例如提供有利于全体成员的商品,或者保护公共资源。而且,在解决内部冲突时,他们花费的努力和资源也要少得多。结果是,无论是在绝对意义上,还是在与其他没有类似准则的集团竞争时,它们都会做得更好。换句话说,某种公平和利他的措施,可能具有演化的生存价值。拒绝不公平提议的某个生物学证据来自特里?伯纳姆(Terry Burnham)做的实验。12在他的最后通牒博弈版本中,利益总额是40美元,受试者都是哈佛大学的男研究生。分割者只有两个选择:给对方25美元,自己保留15美元;或者给对方5美元,自己保留35美元。对于那些只提供5美元的提议,有20个学生接受了提议,6个学生拒绝了提议,结果自己和分割者都一无所获。现在,来看一句点睛之笔。结果证明,拒绝提议的那6个人的睾丸激素比那些接受提议的人高50%。就睾丸激素与身体状况和攻击性相联系这一点来说,这可能提供了一个基因联系,可以解释演化生物学家罗伯特?特里费斯(Robert Trivers)所谓的“道德攻击性”的演化优势。除了潜在的基因联系,社会团体在传递社会准则时还会采用非基因方式,即对家中婴儿和学校中的孩子的教育过程及社会化过程。我们通常能看到家长和老师教育易受影响的孩子们关心他人、与人分享和友善的重要性;其中一些教诲无疑会一直牢牢印在他们的脑海里,并影响他们一生的行为。最后,我们想指出,公平动机和利他主义都有其局限性。一个社会的长期进步和成功需要不断地创新和改变。这反过来又要求人们有个人主义观念以及向社会准则和传统观念挑战的意愿;因为自私自利通常伴随着这些性格特征。我们需要正确地权衡利己行为和利他行为。非常复杂的树(1)非常复杂的树当有了一点倒后推理的经验后,大家会发现,日常生活或工作中很多策略局势都可以遵循“树逻辑”加以处理,而不必专门画出博弈树来进行分析。其他许多中等复杂的博弈可以通过越来越完善的专门电脑软件包来处理。但对于像象棋这样的复杂博弈,想通过倒后推理完全求解几乎是不可能的。理论上而言,象棋是一个理想的可以通过倒后推理加以解决的序贯行动博弈。13在这个博弈中:参与者交替行动;参与者之前的所有行动都是可观察且无法撤销的;局势和参与者动机没有不确定性。如果相同的局势重复出现,比赛就算平局,这一规则确保比赛能在有限次行动后结束。我们可以从最末端那个决策点(或者终点)开始倒后推理。然而,理论和实践完全是两码事。据估计,象棋中的决策点总共大约有10120个,也就是1后面加120个零。一台比普通计算机速度快1 000倍的超级计算机,也需要10103年才能把这些决策点全部考察完。等待是徒劳的;即便是可以预见的计算机改进,也不可能对这有太大的帮助。而与此同时,象棋选手和电脑象棋程序员都做了什么?临近比赛结束之际,象棋大师在刻画最优策略方面一直做得非常成功。一旦棋盘上只剩下很少几个棋子,大师级选手就能展望博弈的结局,然后通过倒后推理来判断一方是否一定取胜,或者另一方能否确保打成平局。但在博弈中盘阶段,当棋盘上还有好些棋子的时候,预测局势就困难得多了。向前展望十步,这与象棋大师们在适当的时间内所能展望的步数差不多,也不可能使局势简化到可以使当时的局势直到终局都得到完全解决。实用性的方法是将展望分析和价值判断相结合。前者属于博弈论科学--向前展望,倒后推理。后者属于象棋艺术,能够根据棋子的数目和棋子之间的相互联系判断出所处局面的价值,而无须从某个决策点开始向前展望,明确找出这个博弈的解决方法。象棋选手们通常把这称为“知识”,但你也可以把它称为经验、本能或者艺术。我们通常可以根据象棋选手掌握“知识”的深度和精度,来识别出谁是最佳的象棋选手。非常复杂的树(2)我们可以通过对大量的象棋博弈和象棋选手进行观察,提炼“知识”,然后总结出规律。对此的大部分研究都集中在开局,即棋局刚走了10步或者15步时。有很多书籍对不同的开局进行了分析和比较,讨论了它们的优缺点。计算机是怎样做到这一点的?编制电脑象棋程序曾经被认为是新兴人工智能科学的组成部分;它的目的是为了设计出能像人类一样思考的计算机。可惜研究了很多年都没能成功。后来,人们的注意力开始转向利用计算机做它们最擅长的事情--数字运算。计算机可以向前多展望几步,而且展望得比人类更快。 到20世纪90年代末,像菲兹(Fritz)和深蓝(Deep Blue)这样的象棋电脑,已经可以利用纯粹的数字运算,与人类最优秀的象棋选手进行较量了。再后来,一些中盘局面的知识也被编入电脑程序,这些知识是由一些最优秀的人类棋手所传授的。但是,优秀的象棋选手可以利用他们掌握的知识,立即区分出哪步棋不该走,而不需要向前展望四五步棋来预测其结果,这样他们就省下了推理哪步棋比较好的时间和精力。人类棋手的等级是根据他们的业绩评定的;最高等级的电脑已经达到了相当于2800等级分的级别,这相当于世界最强的象棋大师加里?卡斯帕罗夫(Garry Kasparov)的水平。2003年11月,卡斯帕罗夫与最新版的菲兹电脑X3D进行了一场四轮赛。结果是双方各胜一局,打平两局。2005年7月,Hydra象棋电脑在一场六轮赛中,以五胜一平的成绩打败了世界排名第13位的迈克尔?亚当斯(Michael Adams)。估计在不久的将来,电脑可能会成为顶级高手,然后它们之间开始相互较量,争夺世界象棋冠军。大家将从中学到什么呢?它说明了考虑复杂博弈的方法,这些复杂博弈是大家可能会面临的。你应该在你的最大推理范围内,把向前展望、倒后推理的规则和引导你判断中盘局面价值的经验结合起来。成功源于对博弈论科学和具体的博弈艺术的综合,而不是来自它们其中之一。一心二用非常复杂的树(3)象棋策略说明了向前展望、倒后推理方法的另一个实用性特征:你必须从参与者双方的角度来进行博弈。虽然根据复杂的博弈树来估计自己的最佳行动比较困难,但预测对方的行动比这还要困难得多。如果你和对方真的可以分析出所有可能的行动和反行动,那么,你们俩就会事先在整个博弈的结果将会如何的问题上达成一致。但是,一旦这个分析只限于考察整个博弈树的某些分支,对方就可能获得一些你没有的或者你错过的信息。这样,接下来对方就可能采取一个你未曾预料到的行动。要真正做到向前展望、倒后推理,你必须预测对方实际会采取什么行动,而不是你站在他们的立场将会采取什么行动。问题在于,当你尝试站在对方的立场时,要忘掉自己的立场,这虽然不是不可能,但也是非常困难的。你太清楚自己下一步的行动计划了,而且当你从对方参与者的视角观察这个博弈时,你很难将自己的意图抹掉。的确,这解释了为什么人们不自己和自己下棋(或玩扑克)。你肯定不能向自己虚张声势,然后再出其不意地攻击自己。这个问题不存在完全的解决方法。当你尝试站在对方的立场上看问题时,你必须知道他们知道的信息,不知道他们不知道的信息。你的目标必须是他们的目标,而不是你所希望的他们的目标。在实践中,试图对潜在商业场景中的行动和反行动进行模拟的公司,通常都会聘请局外人来扮演其他参与者的角色。这样一来,他们可以确保他们的博弈搭档不会知道得太多。通常,最大的收获来自于看到了未预料到的行动后,找出导致这个结果的原因,以避免或者促进这一结果。在本章结束时,我们回到查理?布朗是否该去踢球的问题。这是足球教练汤姆?奥斯本(Tom Osborne)在锦标赛最后时刻面临的真正问题。我们认为他也做错了。通过倒后推理分析,我们可以知道他错在哪里。汤姆•奥斯本与1984年度橘子杯决赛的故..汤姆?奥斯本与1984年度橘子杯决赛的故事在1984年的橘子杯决赛中,战无不胜的内布拉斯加乡巴佬队(Nebraska Cornhuskers)与曾有一次败绩的迈阿密旋风队(Miami Hurricanes)狭路相逢。因为内布拉斯加乡巴佬队晋身决赛的战绩高出一筹,所以只要打平,它就能以第一的排名结束整个赛季。在第四节,内布拉斯加乡巴佬队以17∶31落后。接着,它发动了一次反击,成功触底得分,将比分追至23∶31。这时,内布拉斯加乡巴佬队的教练汤姆?奥斯本面临一个重大的策略抉择。在大学橄榄球比赛中,触底得分一方可以从距离入球得分只有2 5码的标记处开球。该队可以选择带球突破或将球传到底线区,再得2分;或者采用一种不那么冒险的策略,将球直接踢过球门柱之间,再得1分。奥斯本选择了安全至上,内布拉斯加乡巴佬队成功射门得分,比分变成了 24∶31。该队继续全力反击,在比赛最后阶段,它最后一次触底得分,比分变成了30∶31。只要再得1分,该队就能战平对手,取得冠军头衔。不过,这样取胜不够过瘾。为了漂亮地拿下冠军争夺战,奥斯本认为他应该在本场比赛取胜。内布拉斯加乡巴佬队决定要用得2分的策略取胜。但欧文?费赖尔(Irving Fryar)接到了球,却没能得分。迈阿密旋风队与内布拉斯加乡巴佬队以同样的胜负战绩结束了全年比赛。由于迈阿密旋风队击败内布拉斯加乡巴佬队,最终获得冠军的是迈阿密旋风队。假设你自己处于奥斯本教练的位置。你能不能做得比他更好?汤姆•奥斯本与1984年度橘子杯决赛的故..案例讨论星期一出版的许多橄榄球评论文章纷纷指责奥斯本不应该贸然求胜,没有稳妥求和。不过,这不是我们争论的核心问题。核心问题在于,在奥斯本甘愿冒更大风险一心求胜的前提下,他选错了策略。他本来应该先尝试得2分的策略。然后,假如成功了,再尝试得1分的策略;假如不成功,再尝试得2分的策略。让我们更仔细地研究这个案例。在落后14分的时候,奥斯本知道他至少还要得到两个触底得分外加3分。他决定先尝试得1分的策略,再尝试得2分的策略。假如两个尝试都成功了,那么使用两个策略的先后次序便无关紧要了。假如得1分的策略失败,而得2分的策略成功,那么先后次序仍无关紧要,比赛还是以平局告终,内布拉斯加乡巴佬队赢得冠军。先后次序影响战局的情况只有在内布拉斯加乡巴佬队尝试得2分的策略没有成功时才会发生。假如实施奥斯本的计划,这将导致输掉决赛以及冠军头衔。相反,假如他们先尝试得2分的策略,那么,即便尝试失败,他们也未必会输掉这场比赛。他们仍然以23∶31落后。等他们下一次触底得分,比分就会变成29∶31。这时候,只要他们尝试得2分的策略成功,比赛就能打成平局,他们就能赢得冠军头衔!而且,这将是尝试取胜的努力失败之后导致的平局,因此没有人会因为奥斯本一心想打成平局而批评他。我们曾经听到有人反驳说,假如奥斯本先尝试了得2分的策略,却没有成功,那么他的球队就会只为了打平而努力。但这样做不是那么鼓舞人心,并且他们很有可能不能第二次触底得分。更重要的是,等到最后才来尝试这个已经变得生死攸关的得2分策略,他的球队就会陷入成败取决于运气的局面。这种看法是错的,有几个理由。记住,如果内布拉斯加乡巴佬队等到第二次触底得分才尝试得2分的策略,一旦失败,他们就会输掉这场比赛。假如他们第一次尝试得2分的策略失败,他们仍有机会打平。即使这个机会可能比较渺茫,但有还是比没有强。激励效应的论点也站不住脚。虽然内布拉斯加乡巴佬队的进攻可能在冠军决赛这样重大的场合突然加强,但我们也可以指望迈阿密旋风队的防守也会加强。因为这场比赛对双方同样重要。相反,假如奥斯本第一次触底得分后就尝试得2分的策略,那么在一定程度上确实存在激励效应,从而提高第二次触底得分的概率。这也使他可以通过两个3分的射门打平。从这个故事中可总结的教训之一是,如果你不得不冒一点风险,通常是越早冒险越好。这一点在网球选手看来再明显不过了:人人都知道应该在第一次发球的时候冒风险,第二次发球则必须谨慎。这么一来,就算你第一次发球失误,比赛也不会就此结束。你仍然有时间考虑选择其他策略,并借此站稳脚跟,甚至一举领先。越早冒险越好的策略同样适用于生活中的大多数方面,无论是职业选择、投资还是约会。更多关于向前展望、倒后推理原理的实际运用,请看第14章的一些案例分析:“祝你好运”、“红色算我赢,黑色算你输”、“弄巧成拙的防鲨网”、“硬汉软招”、“三方对决”和“糊涂取胜”。多种情景,一个思想(1)多种情景,一个思想以下的情景有何共同点?位于同一个街角的两家加油站,或者同一片街区的两家超市,有时会彼此展开激烈的价格战。在美国大选活动中,民主党与共和党通常都会采取中间政策,以吸引那些处于政治光谱中翼的选民,却忽略了他们那些分别持极“左”或极右态度的核心支持者。“新英格兰渔业的多样性和生产力曾经是无可匹敌的。然而在过去的一个世纪,由于过度捕捞而最终导致物种相继灭绝已成为一种趋势。大西洋比目鱼、海鲈、黑线鲟和黄尾比目鱼……(均被列入了)商业灭绝的物种行列。”答对了也没有奖励--毕竟,囚徒困境是本章讨论的主题。但是,正如我们在第2章中所做的,我们借此机会指出,博弈论的一般概念性框架,可能有助于我们理解各种各样的变体以及看似无关的现象。我们还应该指出的是,毗邻的商店并不经常忙于打价格战,政党们也并非总是围绕权利中心而战。事实上,分析和说明这类博弈中的参与者如何能避免和解决困境,才是本章的一个重要部分。在约瑟夫?海勒(Joseph Heller)的著名小说《第22条军规》结尾,第二次世界大战胜利在望。尤塞里安不想成为胜利前夕最后一批牺牲者,因为这对于战争结果毫无影响,他向上司丹比少校解释道。丹比问:“可是,尤塞里安,如果大家都这么想呢?”尤塞里安答道:“那么,我若是不这么想,岂不就成了大傻瓜?”答案:这些都是囚徒困境的实例。就像《冷血》第1章中讲述的对迪克?赫克考克和佩里?史密斯的审讯,当人人都按照自己的个人利益行事时,每个人都有其个人动机,最终采取了对各方都不利的行为。若其中一个人坦白,那么另一个人最好也坦白,以免因抗拒从严而遭到严厉判决;反之,若其中一个人坚持沉默,另一人却可以通过坦白从宽大大减轻自己的刑罚。的确,促使坦白的力量实在太强大了,以至于每个囚徒都有坦白的动机,不论双方是真有罪(正如《冷血》中的情况),还是明明无罪却被警方诬陷(正如电影《洛城机密》中的情况)。多种情景,一个思想(2)价格战也是一样。如果奈克森加油站的汽油定价较低,那么卢纳科加油站最好也降低自己的价格,以免失去太多的顾客;如果奈克森加油站的汽油价格较高,那么卢纳科加油站可以通过制定低价,将奈克森加油站的一些顾客吸引过来。但是,当两家加油站的价格都较低时,它们谁也不会盈利(虽然顾客的情况得到了改善)。在美国大选中,如果民主党采用吸引中间派的竞选策略,那么,共和党要是只迎合他们那些处于经济和社会右翼的核心支持者,就很可能失去这些中间派选民的支持,从而导致大选失败;反之,如果民主党只迎合其在少数民族和工会中的核心支持者,那么共和党可以通过采取更加中间的态度,赢得中间派的支持,从而赢得绝大多数的选票。在过度捕捞案例中,如果所有其他人都有节制地捕捞,那么单凭一个渔民的过度捕捞并不会在很大程度上造成渔业的消耗殆尽;但是,如果所有其他人都过度捕捞,那么任何一个试图单枪匹马保护渔业的渔民都是傻瓜。这样,最终结果就会是过度捕捞和物种灭绝。而在《第22条军规》中,尤塞里安的逻辑,正是使得人们很难继续支持一场败仗的原因。一段小小的历史(1)一段小小的历史对于这个涵盖了经济、政治和社会诸多活动的囚徒困境博弈,理论家们当时是如何构造和命名的呢?这要追溯到博弈论学科早期的历史。作为博弈论先驱之一的哈罗德?库恩(Harold Kuhn)在1994年诺贝尔奖颁奖典礼的专题讨论会上,讲述了下面的故事。那是1950年春天,埃尔?塔克(Al Tucker)在斯坦福大学学术休假,由于办公室紧缺,他住进了心理学系。有一天,一位心理学家敲开了他的房门,问他正在做什么。塔克回答:“我正在研究博弈论”,心理学家就问他能否就他的研究举办一次研讨会。为了那次研讨会,塔克发明了“囚徒困境”作为博弈论、纳什均衡以及与之伴随而来的非社会意愿均衡的例子。作为一个真正富有创意的例子,囚徒困境博弈激发了许多学术论文乃至几本巨著。其他人的说法则略有不同。据他们所说,囚徒困境的数学架构早在塔克之前就形成了,这可以归功于两位数学家,即就职于兰德公司(美国冷战时期的智囊团)的梅里尔?弗勒德(Merrill Flood)和梅尔文?德雷希尔(Melvin Dresher)。塔克的才华在于,他发明了这个故事来阐释数学原理。之所以称它为一种才华,是因为它的展示方法可以形成或者打破一种思想;一种令人难忘的展示方法能够传播开来,并被大多数思想家更好更快地吸收,而一种乏味枯燥的展示方法可能会被人忽略、遗忘。∷一个直观的展示我们用一个商业实例,来提出表示和求解该博弈的方法。彩虹之巅(Rainbow s End)和比比里恩(B B Lean)是两家互为竞争对手销售服装的邮购公司。每年秋天,它们都要打印出其冬季产品目录单,并邮寄出去。且每家公司都必须遵守其产品目录上印刷的价格。由于产品目录的准备时间比邮购窗口开放的时间长得多,因此,两家公司必须在不知道对方价格的情况下,同时做出定价决策。它们很清楚,产品目录是给一些共同的潜在顾客看的,而这些顾客很聪明,他们不断追求低廉的价格。这不仅包括了从中国供应商那里购买衬衫的成本,也包括运送至美国的运输成本、出口税以及存货成本和订单履行成本。换句话说,总成本包括所有与该产品相关的成本。这样规定的目的是为了全面度量经济学家所谓的边际成本。两家公司的产品目录上通常都重点突出一件几乎完全相同的商品,如高档格子衬衫。对每家公司而言,该衬衫的单位成本为20美元。它们估计,如果它们都对这种商品定价80美元,那么,每家公司将销售出1 200件衬衫,这样,每家公司都将得到(80-20)×1 200=72 000美元的利润。而且,事实证明,这个价格能使它们的共同利益最大:如果两家公司合谋起来,统一定价,那么80美元是使他们的联合利润最大化的价格。一段小小的历史(2)这两家公司还估计出,如果其中一家公司把价格降低1美元,而另一家的价格保持不变,那么降价的公司将得到额外的100名顾客,其中80名是从另一家公司转移过来的顾客,20名是新顾客。他们可能决定买下价格较高时未买的衬衫,也可能从当地购物中心的某个商店转移到这家公司。因此,每家公司都有动机制定低于对方公司的价格,以得到更多的顾客;我们给出这个故事的主要目的在于,找出这些动机是如何影响双方的行动的。首先,我们假设每家公司只有两个价格选择:80美元和70美元。如果一家把它的价格降至70美元,而另一家公司仍然定价80美元,那么,降价者将得到额外的1 000名顾客,而另一家则失去800名顾客。这样,降价者售出 2 200件衬衫,而另一家的销售量降到400件;降价者的利润为(70-20)×2 200=110 000美元,而另一家公司的利润为(80-20)×400=24 000美元。这个规定,尤其是只有两种可能的价格选择这个假设,只不过是为了以尽可能简单的方式,构造出这类博弈的分析方法。在以后的章节,我们将允许公司有更大的价格选择自由。托马斯?谢林在区分哪个赢利属于哪个参与者时,发明了这种用同一个表格表示两个参与者的赢利的方法。他用过分谦虚的笔触写道:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的……我发明了用一个矩阵反映双方赢利的方法。”事实上,谢林提出了很多在博弈论中至关重要的概念--聚焦点、可信度、承诺、威胁与承诺、颠覆,等等。在接下来的章节中,我们将会经常引用他和他的研究成果。如果两家公司都把价格降至70美元,结果会怎么样?如果它们都降价1美元,虽然现存的顾客数量不变,但它们各自都得到了20名新顾客。这样,当它们都把价格降低10美元时,就能各自在原先1200件的基础上多销售200件。即每家公司的销售量是1 400件,获得的利润为(70-20)×1 400=70 000美元。我们希望能够直观地展示出利润结果(即公司在博弈中的收益)。但是,我们无法运用第2章中的博弈树来做到这一点。因为在这里,两个参与者是同时行动的。参与者在采取行动时,都不知道对方做了什么,也预料不到对方将如何回应。相反,每个人都要考虑对方同时在想什么。一段小小的历史(3)这种想对方之所想的做法的一个出发点是,列出双方所有同时选择组合的所有结果。因为每家公司各有两个价格选择:80美元或70美元,所以总共存在四个这样的组合。我们可以用一种由行和列组成的类似电子表格的形式简单地把它们表示出来,通常我们称之为博弈表或者赢利表。彩虹之巅(简称RE)的选择表示在行中,比比里恩(简称BB)的选择表示在列中。在这四个单元格中的每个单元格,我们都展示了与每个RE行选择和BB列选择相对应的两个数字--衬衫的销售利润,单位是千美元。在每个单元格中,左下角的数字属于行参与者,右上角的数字属于列参与者。 在博弈论术语中,这些数字称为赢利。同时,在这个例子中,为了清楚地区分哪些赢利属于哪个参与者,我们把这些数字用两种不同的阴影表示出来。一般来说,对参与者而言,赢利数字越高越好。有时则不然。比如对接受审讯的囚徒而言,赢利数字指的是监禁的期限,因此每个参与者都希望数字更小。同样的情况也适用于赢利数字代表排名时,在那里,1是最佳结果。当你观察一个博弈表格时,你应该先弄明白该博弈的赢利数字的含义。在“求解”这个博弈之前,让我们先来观察并强调一下该表格的一个特性。比较一下这四个单元格中的赢利组合。对RE而言较好的结果,并不总是意味着对BB而言是较坏的结果,反之亦然。具体地说,它们在左上角的单元格中的赢利,都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者;因为它不是零和博弈。我们在第2章也曾经指出,查理?布朗投资博弈不是零和博弈,我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中,比如囚徒困境博弈,主要问题在于如何避免出现两败俱伤的结果,或者如何促成双赢的结果。∷困境现在我们来考虑一下RE经理的推理。“如果BB选择80美元,那么我可以通过把价格降至70美元,得到110 000美元的利润,而不是72 000美元的利润。如果BB选择70美元,那么,若我也定价70美元,我的赢利是70 000美元;但是,若我定价80美元,我只能得到24 000美元的利润。所以,不论在哪种情况下,选择70美元都优于选择80美元。不论BB如何选择,我的更优选择(实际上是我的最优选择,因为我只有两种选择)都是相同的。我根本不需要考虑他的想法;我只管直接把价格定为70美元就好了。”一段小小的历史(4)在一个同时行动博弈中,如果存在这样的特性:对某个参与者而言,无论其他参与者如何选择,他的最佳选择都是一样的,那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此,为了简化博弈求解方法,深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言,无论其他参与者选择什么策略或者策略组合,他的同一种策略总是优于所有其他可选策略,我们就说这个参与者拥有优势策略。于是,我们得到了一个简单的同时行动博弈的行为法则。在第2章中,我们已经提供了一个简明的法则来制定序贯行动博弈的最佳策略。那就是我们的法则1:向前展望,倒后推理。在同时行动的博弈中就不是这么简单了。不过,同时行动所需的想对方之所想,可概括为三个简单的行动法则。这些法则依次依赖于两个简单的思想--优势策略和均衡。此处列出了法则2,法则3和法则4将在第4章介绍。事实上,80美元是给双方带来最高联合利润的共同价格;若它们能联合起来,组成企业联盟,这也是它们会选择的价格。这个论点的严格证明需要一些数学知识,所以,暂且先记住我们说的话。希望知道该证明过程的读者,可登录本书的网站。公司降价的获益者当然是顾客,他们并不是此博弈中的积极参与者。因此,社会常常有更大的利益动机阻挠公司解决其价格困境。这就是美国和一些其他国家反垄断政策的作用。法则2:假如你有一个优势策略,请照办。囚徒困境是一个更为特殊的博弈--不仅一个参与者,而且两个(或者所有)参与者都有优势策略。BB经理的推理与RE经理的推理完全类似,你应该自己练习运用这个法则,来巩固上述思想。你将发现,70美元也是BB公司的优势策略。博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了70美元的定价,且每家公司均获得70 000美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时,他们得到的结果劣于它们联合起来共同选择另一个策略(劣势策略)时得到的结果。在这个博弈中,它们本来都应该定价为80美元,从而得到博弈表左上角的单元格结果,即每家公司获得利润72 000美元。只有一方定价80美元是不行的;这样的话,这家公司将损失惨重。在某种程度上,它们必须都制定高价,但在每家公司都有动机制定低于对方价格的情况下,这个结果很难达到。每家公司都追求自身的利益,并没有导致对双方都是最好的结果,这与亚当?斯密(Adam Smith)教给我们的传统经济学大相径庭。一段小小的历史(5)