思考，快与慢-思考，快与慢-5

一辆出租车在夜晚肇事后逃逸。这座城市有两家出租车公司，其中一家公司的出租车是绿色的，另一家是蓝色的。你知道以下数据：这座城市85%的出租车是绿色的，15%是蓝色的。一位目击证人辨认出那辆肇事出租车是蓝色的。当晚，警察在出事地点对证人的证词进行了测试，得出的结论是：目击者在当时能够正确辨认出这两种颜色的概率是80%，错误的概率是20%。这场事故的出租车是蓝色而不是绿色的概率是多少？这是“贝叶斯定理”的一个标准问题。我们可以从中得到两条信息：一个基础比率以及不完全可靠的目击者证词。若没有目击者，肇事出租车是蓝色的概率（即蓝色出租车的基础比率）为15%。若两家出租车公司规模一样大的话，基础比率就会变成无用信息，你就只需考虑目击者的证词，因而这个问题的概率就是80%。我们可以用贝叶斯定理将这两个信息源结合起来，得出正确答案是41%。然而，你可能会想到当人们面对这个问题时是怎样做的：他们会忽略基础比率，只考虑目击者的因素。因此，最普遍的答案是80%。因果关系基础比率与思维定式现在，请考虑一下上述问题的另一种表述方式，在这个表述中，只有基础比率发生了变化。你得到的数据如下：两家公司拥有数量相同的出租车，但是在出租车造成的事故中，绿色出租车占85%。关于目击证人的信息与上例相同。同一问题的两种表述从数学角度来看并没有区别，但从心理学角度来看则有很大不同。看了第一种表述的人并不知道怎样运用基础比率，通常会忽略它。相反，看到第二种表述的人会对基础比率给予一定重视，他们的平均判断与运用贝叶斯定理解决该问题得出的答案相差不多。这是为什么呢？在第一个表述中，蓝色出租车的基础比率是关于这座城市出租车的统计学事实。大脑极其渴望找到其中的因果关系，但却一筹莫展：这座城市绿色和蓝色出租车的数量与出租车司机肇事后逃逸到底有什么因果关系呢？而在第二个表述中，开绿色出租车的司机比开蓝色出租车的司机肇事率高5倍。于是你会马上得出结论：开绿色出租车的司机是一群莽撞的疯子！现在，你认为绿色出租车司机是莽撞的，并对这家公司所有你并不认识的司机都抱有这种印象，我们称之为思维定式。我们很容易将这样的思维定式设定在因果关系里，因为莽撞是使出租车司机与肇事逃逸产生因果联系的相关事实。在这个表述中，有两个因果关系需要放在一起考虑。第一个是肇事后逃逸，这件事使人很自然地认为莽撞的绿色出租车司机难脱干系；第二个是目击者的证词，证词特别强调肇事出租车是蓝色的。根据这两个因果事件对出租车颜色作出的推断是相互矛盾的，因此如果其中一个成立就相当于另一个被推翻。这两种颜色的概率大致相同（用贝叶斯定理估计出的概率是41%，这说明与目击者确信出租车为蓝色的概率相比，绿色出租车的基础比率略为极端了些）。这个出租车的实例阐明了两种基础比率。“统计学基础比率”（statistical base rates）是指某一事件所属类别的事实总量，与单独事件无关；而“因果关系基础比率”（causal base rates）则会改变你对单独事件的看法。对两种基础比率，人们往往会区别对待：统计学基础比率普遍受到轻视，当人们手头有与该事件相关的具体信息时，有时还会完全忽略这一比率。因果关系基础比率被视为个别事件的信息，人们很容易将这一比率与其他具体事件的信息结合起来考虑问题。与因果关系相关的那个出租车问题存在一种思维定式：绿色出租车的司机是危险的。思维定式是指人们会（至少暂时会）将自己对某个团体的看法延伸到这个团体中每一个成员的身上（团体存在某些问题，其中的成员无一例外也都会有这些问题）。下面有两个例子：这所位于市中心的学校的绝大多数毕业生都能考上大学。自行车风靡整个法国。这些陈述很容易被理解为某个团体中每个个体都具有某种倾向，符合因果关系。这所位于市中心的学校的许多毕业生都想要上大学，他们也有这个能力，原因可能是这所学校的校园生活有利于学生身心发展的特点。法国文化及社会生活中蕴涵着使法国人对骑自行车感兴趣的推动力。当你想到某学校毕业生进入大学的可能性或考虑是否与一个刚认识的法国人谈论环法自行车比赛时，你就会联想到这些事实。思维定式在我们的文化中是个贬义词，但我把它当成一个中性词来用。系统1的基本特征之一就是它代表了范畴规范和原型范例。这样的规范和范例决定了我们怎样看待马、冰箱及纽约市的警察，因为我们会在记忆里存储与所有这些范畴的事物或人相关的一个或多个“规范的”典型形象。当这些范畴具有社会性时，这些典型形象就被称为思维定式。有些思维定式的错误是致命的，负面的思维定式可能会产生可怕的后果，但这样的心理学事实无法避免：不管是对是错，思维定式都是我们对不同范畴事物的看法。你可能发现了其中的讽刺之处。在出租车问题的情境中，忽略基础比率信息是一个认知错误，是贝叶斯定理的失败；依赖因果关系基础比率才能获得令人满意的答案，形成对绿色出租车司机的思维定式便会提高判断的准确度。然而，在其他情境中，例如涉及雇佣问题或整体概述时，社会规则与思维定式会发生强烈冲突，在法律当中同样有所体现。事实就是如此，无须大惊小怪。在敏感的社会情境中，我们不想根据某个团体的相关统计数据对个人做出可能是错误的结论。我们认为应该将基础比率视为与整体相关的统计学事实，而不是与个人相关的假设性事实。换句话说，我们反对利用因果关系基础比率。社会规范往往反对思维定式，包括对整体概述这一做法的否定，这对于建立一个更加文明平等的社会大有益处。然而，我们也应该知道，忽略有根据的思维定式会不可避免地妨碍我们的判断。打破思维定式是值得称道的道德主张，但是如果简单地认为打破这种印象不用付出任何代价，那就错了。为了建立一个更美好的社会，付出这些代价都是值得的；然而如果只顾满心欢喜和正确的政治立场，却否认代价的存在，这种态度是经不起科学推敲的。在政治分歧中依赖情绪启发是很常见的，我们赞同的某些立场无须成本，我们反对的某些立场也没有益处。我们应该有能力可以做得更好。我和阿莫斯设计了许多出租车问题的衍生实验，但并没有发明因果关系基础比率这一强大概念，我们是从心理学家埃塞克·阿杰恩（Icek Ajzen）那里借用了这一概念。阿杰恩在他的实验中给受试者简单描述了一些学生在耶鲁大学参加考试这件事，然后要求受试者判断其中每个学生通过考试的概率。因果关系基础比率的影响是非常明显的：阿杰恩告诉一组受试者，那些考生中有75%的人通过了考试；而告诉另一组受试者，考生考试的通过率是25%。这项测试的困难自然在于，受试者需要用众多因果关系中的一个来判断每一个学生的考试结果。不出所料，阿杰恩的受试者都对因果关系基础比率非常敏感，在高成功率的情境中，受试者估测出的每个学生通过考试的概率都要高于在高失败率的情境中那些受试者的估测值。阿杰恩运用一个颇具独创性的方法指出了一个非因果关系的基础比率。他告诉受试者，那群学生是从一个样本中抽取的，而且这个样本是从已得到考试结果的学生中抽取的。例如，处于高失败率情境的那一组所看到的信息如下所示：研究者主要是对考试失败的原因很感兴趣，所以选取的样本中有75%的学生是没通过考试的。请注意其中的不同。这个基础比率是一个关于选取示例整体的纯统计学事实。这与所问的问题（即个别学生是否通过考试）并无关联。正如人们所料，这个阐述明确的基础比率对判断产生了一定影响，但相对于统计学上的因果关系基础比率而言，其影响则要小很多。系统1处理的事件中各项因素是有因果关系的，但是在统计推理中这样的关系很薄弱。当然，对于一个以贝叶斯定理为模式进行思考的人来说，所有这些表述方式都是相同的。我们很容易认为自己已经得到了一个令人满意的结论：因为我们使用了因果关系基础比率；我们只不过（或多或少）忽略了统计学上的事实而已。下面这个研究是我一直以来最中意的一项，它表明了情境是非常复杂的。我们并没有自己想的那样乐于助人莽撞的出租车司机以及高难度的考试阐明了两个从因果关系基础比率中得出的推论：一是我们容易赋予个人以典型特征，二是情境的一个重要特点就是能影响个人的思考结果。实验的受试者做出了正确的推论，他们的判断力也有所提高。可事情并不总是那么顺利。我即将要描述的典型实验表明，人们不会从基础比率信息中得到与他们的观点相冲突的推论。这个实验还证实了一个让人苦恼的结论：教授心理学纯粹是在浪费时间。社会心理学家理查德·尼斯贝特（Richard Nisbett）和他的学生尤金·博吉达（Eugene Borgida）很早之前就在密歇根大学做了这个实验。他们向学生描述了前几年在纽约大学进行的那个著名的“帮助实验”。他们将实验受试者分别带入房间，并要求他们对着麦克风谈论自己的生活和烦恼。他们轮流叙述两分钟，每个房间的麦克风只有在受试者讲述时才会出声。每一组有6位受试者，其中一位是我们派去扮演受试者的工作人员。这位工作人员是第一个叙述的人，他是按照研究人员准备的稿子说的。他说他很难适应纽约的生活，并十分尴尬地承认自己很容易抽搐，在紧张的时候尤其如此。接着，所有受试者都依次叙述。当那位工作人员再次对着麦克风讲述时，他变得焦虑和不连贯，他说他感到一阵抽搐，希望有人能帮助他。他最后几句说的是“有没有人……能……救救我……（喘气声）我……我要……死了，我要……死了（气哽声，然后安静了下来）”。此时，下一位受试者的麦克风被自动打开，人们再也听不到那位有可能濒临死亡的人的动静了。你认为这个实验的其他受试者会做些什么呢？到现在为止，受试者知道他们中的一员癫痫发作并希望得到帮助，然而他们觉得可能已经有几个人冲出去并提供了帮助，所以自己可以安然地待在隔间中。实验结果是：15个受试者中，只有3个人立刻对请求做出了反应。6个人没有踏出过房间，另外5个人在“癫痫患者”明显气哽时才冲出房间。这项实验说明当某人知道其他人也听到了同样的求救信息时，就会感到自己肩上的责任变小了。这样的结果令你惊讶吗？很有可能。我们大多数人都认为自己十分正直，在那样的情况下，都会义无反顾地提供帮助。当然，这项实验的意义就是去证实那样的期望是错误的。即使是普通、正直的人也不会冲过去提供帮助，因为他们希望别人能够处理这种令人不快的癫痫发作情况。这是不是意味着你也会这样做呢？你赞同下面的说法吗？“当我阅读帮助实验的流程时，我想我会立刻对那个陌生人施予援手，就如同当时只有我和这个癫痫病患者一样。然而，我有可能错了，如果发觉自己所处的环境中还有许多人有可能去提供帮助，我可能就不会走出去了。别人的存在会削弱我最初的责任感。”这是一个心理学老师希望你学到的。你自己也做过相同的推理吗？描述这项帮助实验的心理学教授希望学生能将基础比率看做是有因果关系的，就如前面提到的那个虚拟的耶鲁大学测试一样。他希望学生可由这两个例子得到推论，即高失败率意味着测试很难。学生应该懂得这个情境的显著特点，例如责任感的淡化。这个特征会引起包括这些学生在内的普通人和高尚的人意外地没有向他人伸出援手。改变一个人对人性的看法很难，改变一个人对自身阴暗面的看法就更难了。尼斯贝特和博吉达怀疑学生很有可能会对这项任务和不快的感觉产生抵触情绪。当然，学生能够也愿意在实验中叙述“帮助实验”中的细节，甚至会重复实验方对责任传播的“正面”解释。他们对人性的看法真的发生改变了吗？为了弄清这一点，尼斯贝特和博吉达给受试者播放了一些简短访谈的视频，被访者是在纽约所作的那项研究中的受试者。访问简短而平淡，受访者看上去都是友好而正直的普通人。他们描述了各自的爱好、课余活动以及对未来的计划，这一切完全是老生常谈了。在看过其中一个采访视频后，学生们需要猜测那个受试者会在多长时间后为陌生的发病者提供帮助。要想将贝叶斯推论应用到这项指派给学生的任务中，你应该先问问自己如果你并没有看过那两人的视频，你会作出怎样的猜测。这个问题可以运用基础比率得以解决。我们知道，在患病者发出第一次请求后，15个受试者中只有4个冲出去提供了帮助。所以某个受试者立刻伸出援手的概率是27%。因此，当被问到某个特定的受试者是否会立刻提供帮助时，你的第一反应是不会。接着，贝叶斯逻辑要求你通过该受试者的相关信息对自己的判断进行调整。然而，视频是经过精心设计的，不会提供什么信息。他们并没有提供任何理由以便让你推测出某个受试者的热心程度。因此，这样推测出来的结果并不比乱猜的准确率高多少。在缺乏有用新信息的时候，可同时运用贝叶斯定理与基础比率来解决问题。尼斯贝特和博吉达叫两组学生看了这些视频并要求他们判断两名受试者的反应。第一组学生只了解到“帮助实验”的流程，并不知道实验的结果。这组受试者的预测结果反映了他们对于人性的看法以及对情境的理解。正如你可能猜到的那样，他们作出的预测是两位受试者立刻都冲出去帮忙了。第二组学生对实验的流程和结果都有所了解。对两组受试者作出的预测进行比较，可以回答一个非常重要的问题：这组学生是否从“帮助实验”的结果中得到了一些信息，从而显著地改变了自己的思考方式？答案很明显：他们其实什么信息也没得到。第二组学生对这两位受试者所作的预测与并没有见过实验统计结果的第一组学生所作的预测没什么区别。尽管知道视频中被抽到的这个受试者所属小组的基础比率，他们还是相信自己在视频中看到的人会很快为陌生的患病者提供帮助。对心理学老师来说，这项研究的隐含信息无疑是令人沮丧的。在为学生讲授“帮助实验”中受试者行为的相关知识时，我们希望他们能够有新的收获；希望改变他们在某个特定情境中对于人的行为的看法。这个目标并没有在尼斯贝特和博吉达的实验中得到实现，而我们也没有理由相信假如他们选择的是另一个令人惊奇的心理实验，实验结果就会有所不同。的确，尼斯贝特和博吉达在给学生呈现另一项研究结果时，汇报了类似的发现，此发现表明轻微的社会压力会增强人们对令人痛苦的电击的承受力，且这样的承受力超出了我们大多数人的想象。如果学生没有对社会环境的影响力形成一个新的认识，他们就没有从实验中学到任何有价值的东西。他们对陌生人或是自己的行为作出的推测说明，他们并没有改变原本的想法。以尼斯贝特和博吉达的话来说，学生“默默地将自己（以及他们的朋友和熟人）排除在外”，认为实验的结果并没有令他们惊讶。然而，各位心理学老师不应感到绝望，因为尼斯贝特和博吉达想出了一个能让学生充分理解“帮助实验”内涵的方法。他们找了一组新的学生，向他们描述了“帮助实验”的流程，但没有告诉他们实验的结果。他们播放了那两个视频，然后只是简单地告诉学生视频中的两个人没有帮助那个陌生患者，然后，他们要求学生对所有受试者的行为进行猜测。实验结果是出乎意料的：学生们的猜测十分精确。在教授学生全新的心理学知识时，你必须得令他们感到惊讶，但什么样的惊讶才会有效果呢？尼斯贝特和博吉达发现，当他们向学生展示令人惊讶的统计学事实时，学生什么也学不到；但当学生惊讶于个体案例时，例如知道两个友好的人对求救的人袖手旁观时，他们会立刻归纳并推断出帮助他人似乎比自己想象的要困难。尼斯贝特和博吉达将结论总结为耐人寻味的一句话：这些受试者不愿从普遍现象中推导出特殊性，这一点与他们愿意从特殊现象中归纳出普遍性如出一辙。这是一个影响深远的重要结论。有些人的行为令人惊讶，了解这些行为的统计学事实的人也会将这些事实告诉别人，就在这种转述的过程中，他们的印象得以加深，但这并不意味着他们的世界观也会随之改变。学习心理学面临的考验是，你对所处环境的理解是否发生了改变，而不是你是否了解到一个新的事实。我们对于数据的想法以及我们对于个体案例的想法存在很大的差距。相较于非因果关系的信息来说，用因果关系进行解释的统计学结果对我们的想法影响更大。但即使是具有说服力的因果关系统计数据也不会改变我们在个人经历中形成的长期坚守或是根深蒂固的信念。此外，令人惊讶的个体案例影响甚大，是教授心理学更为有效的手段，因为个案与统计数据的分歧需要调解，并被嵌入一种因果关系里，正因如此，本书才包含种种直接向各位读者提问的问题。与从别人那儿听到令人惊奇的事实相比，你更有可能因为从自己的行为中发现惊人的事实而学到知识。示例：原因和数据“我们不能假设仅仅通过统计数据他们就能真正学到知识，需要再给他们一两个有代表性的个体案例来影响他们的系统1（作出判断）。”“不需要担心这个统计学信息会被忽略掉。相反，它会立刻被应用到形成陈规的过程中。”第17章所有表现都会回归平均值我曾经为以色列空军的飞行教练们讲授过关于高效训练的心理学课程，那次经历为我带来了职业生涯中最引以为豪的发现。当时我告诉他们关于技能训练的一条重要原则：对良好表现的嘉奖比对错误的惩罚更有效。不管是对鸽子、老鼠、人类，还是其他什么动物的研究，都给这个说法提供了证据。就在我结束了激情洋溢的演说之后，经验最为丰富的一位教练举手示意，发表了一番自己的意见。他先是承认奖励对鸟确实管用，但他认为这不是训练飞行学员的最佳选择。他说道：“在很多情况下，我会赞许那些完美的特技飞行动作。不过，下一次这些飞行员尝试同样飞行动作的时候，通常都会表现得差一些。相反，对那些没执行好动作的学员我会大声怒吼，但他们基本上都会在下一次表现得更好。所以说，别告诉我们嘉奖有用而惩罚没用，因为事实恰恰相反。”这条统计学原则我已经讲授了很多年，而这一次我从一个新的角度重新认识了它，这的确是一个顿悟的时刻。那个飞行教练是正确的，但同时他也彻彻底底地错了。他的观察是精明且到位的：被他表扬之后，很多学员很有可能会表现得很糟糕；惩罚反而会促使他们进步。但是就他的推断而言，奖励和惩罚之间是毫无关系的。他所观察到的就是众所周知的“回归平均值”现象，这种现象与表现质量的随机波动相关。一般来说，只有学员的表现远远超出平均值时才能得到这位教练的表扬。但也许学员只是恰巧在那一次表现得很好，而后又变差，这与是否受到表扬毫无关系。同样，或许学员某一次非同寻常的糟糕表现招来了教练的怒吼，因此接下来的进步也和教练没什么关系。这个教练把不可避免的随机波动与因果解释联系起来了。这个提议确实引起了反响，不过这些教练对概率预测的代数方法没什么兴趣。所以，我用粉笔在地上画了一个靶子。我请房间里的每一位教练都转过身去，背对着靶子向里面接连扔两枚硬币。接着我们分别测量了靶子到两枚硬币的距离，并写在黑板上。然后，我们又将这些数据按第一次投掷的距离远近排列。很明显，第一次投掷得比较好的人第二次大都做得不好，而第一次没有投掷好的人第二次大都有了进步。我告诉这些教练，他们在黑板上看到的数据其实和飞行员的表现是一致的：糟糕的表现常常会有提高，而好的表现则会变得糟糕，这跟表扬与惩罚都没有关系。那天，我的发现是，那些飞行教练陷入了一个偶然性困局之中：因为当飞行学员表现差时，他们就会受到惩罚，而接下来的进步则很可能为他们带来嘉奖，事实上惩罚根本就没有发挥什么作用。而且，处于这种窘境之中的不仅仅是那些教练。我曾无意中发现了人类环境中一个意义重大的事实：生活给予我们的反馈常常违背常理。因为当别人取悦我们时，我们也会对他好；当别人对我们不好时，我们也会对他产生厌恶之情。然而从统计学角度来看，我们却是因为对人友好而受到惩罚，因为举止无礼而得到嘉奖。第二次的表现与第一次并无因果联系几年之前，在线杂志《边缘》（Edge）的编辑约翰·布鲁克曼（John Brockman）请一些科学家讲述他们“最喜爱的公式”。以下是我提供的信息：成功等于天赋加运气巨大的成功等于更多的天赋加更多的运气运气常常会促成成功，然而当我们把这个并不令人吃惊的想法用到高水平高尔夫锦标赛前两天的比赛中时，却出现了令人惊讶的结果。为了简单说明这个问题，我们假设这两天中参加比赛的选手平均绩点为72标准杆。我们关注了一位在第一天表现非常不错的选手，他在当天比赛结束时得分为66杆。我们从这个得分中能推断出什么？最直接的推断就是这个球员要比锦标赛中其他选手有更高的天赋。成功公式告诉我们另一个推断同样成立：第一天表现很好的高尔夫选手很可能在那一天有着非比寻常的运气。如果你能接受天赋和运气都能带来成功这种想法，那么“这个成功的高尔夫球手很幸运”这个结论肯定和“他很有天赋”这个结论一样可信了。同样，如果你关注一个当天的成绩超过标准杆5杆的球员，就可以推测他技术很糟，而且那天运气也不好。当然，你也清楚这些推测不一定都成立。某个打了77杆的运动员很可能非常具有天赋但却遭遇了极其不走运的一天。下面的推测是根据第一天的得分作出的，尽管不确定，但这种推测通常是正确的。第一天高于一般水平的成绩等于高于一般水平的天赋加第一天的好运气第一天低于一般水平的成绩等于低于一般水平的天赋加第一天的坏运气现在，假设你已经知道某个高尔夫球手第一天的得分，并且要对其第二天的得分进行预测。你希望这个选手第二天仍旧能够延续前一天的优异表现，所以你给出的最佳猜测就是第一个选手得分“高于平均水平”，而第二个选手得分则“低于平均水平”。当然，运气就很难说了。我们没办法预测出一名选手在第二天（或是任意一天）的运气如何，因此我们能作的最佳推测就是采用其平均值，既不好也不坏。也就是说，在没有其他任何相关信息的情况下，对于某选手在第二天的得分情况，我们能作出的最好推测就是：第一天的表现不会重演。你很有可能会这样说：在第一天表现很好的高尔夫选手在第二天也会表现得不错，但还是会比第一天稍差一点，因为他在第一天碰到的好运气不一定能在第二天再次碰到。在第一天表现不佳的高尔夫选手在第二天也许得分还会低于平均水平，但是会有些提升，因为他第一天的霉运不一定会持续。尽管我们会猜测第一名选手在第二天的表现还是会优于第二名选手，但是他们之间的差距会缩小。事实上，对选手第二天的表现最准确的预测通常是最保守、最接近平均值的，而不是基于第一天分数的预测。我的学生每次听到这样的结论都很惊讶。正因为如此，这种模式被称为“回归平均值”。原始数据越极端，我们所期待的回归就越明显，因为极好的分数常常表明这一天的运气很不错。这种回归式的预测是很合理的，但是准确度却得不到保证。有些高尔夫选手在第一天得了66杆的高分，如果第二天运气更佳的话，得分甚至更高。当然大部分人的表现都会变差，因为他们的运气不再处于平均值之上了。现在我们将时间轴反过来，将选手按第二天的得分情况排序，来看看他们第一天的表现。我们仍旧会发现同样的模式，回归平均值。第二天表现出色的选手很可能是因为当天运气好，而最好的猜测就是他们第一天的运气不佳。当你根据后期的表现来推测早期表现时，也会发现回归平均值的现象，此时你便会相信这种回归并非巧合。回归效应无处不在，很多可以说明这一效应的误导性因果事件同样司空见惯。有一个经典的例子，那就是“体育画报的诅咒”，凡是登上《体育画报》（Sports Illustrated）这本杂志封面的运动员都会在接下来的赛季中表现欠佳。一般来说，人们会认为过度自信以及人们对其期望过高的压力造成了这些人表现不佳。不过，这个诅咒可以用更简单的方式来解释：能够成为《体育画报》封面人物的运动员在前一赛季一定表现极为出色，也许这种出色的表现在很大程度上源于运气，运气是善变的，接下来他就没那么走运了。当年和阿莫斯正在撰写一篇关于直觉预测法的文章时，我碰巧看了冬奥会的男子高空滑雪比赛。在这项比赛中，每个运动员都有两次机会，最终结果由两次得分决定。每当一名选手进行第二轮时，解说员常常会说“挪威选手第一轮表现很好，现在他一定很紧张，因为想要保持领先地位，估计他在第二轮会表现欠佳”，或者“瑞典选手第一轮表现很糟糕，他明白自己已别无选择，因此也没有什么压力，大概第二轮就会做得更好”。所有这些评论都令我感到很吃惊。很明显，这个评论员已经觉察到了回归平均值的概念，而且还在没有任何依据的情况下编出了一个有理有据的故事。也许他的解释是正确的，如果我们测一下运动员的心跳，可能会发现不佳的表现之后确实会放松，当然也可能不会。有一点我们要记住，运动员第一跳和第二跳的表现之间不存在因果关系。这只是一个数学问题，其中运气起了很大的作用。这个说法不太令人满意，我们都想得到一个有因果关系的解释，但事实的确如此。回归现象的意义不亚于发现万有引力无论是没有察觉还是解读错误，这种回归现象对人类而言总是很陌生的，因此直到万有引力和微积分理论出现两百年后，这种现象才为人们所理解。而且，是19世纪英国最伟大的科学家之一经过艰苦卓绝的努力才探索出这一重要规律的。弗朗西斯·高尔顿（Francis Galton）爵士是19世纪英国著名的学者，也是达尔文的表兄。他发现并命名了回归平均值的现象。1886年，他发表了《在遗传的身长中向中等身长的回归》，其中涉及对连续子代的种子大小的测量以及对子代株高和母本株高的比较。在对种子的研究中，他写下了如下的话：实验结果看上去十分值得关注，在1877年2月9日的一次演讲中，我就先于皇家科学院将这些结果用做一次演讲的基本内容了。从这些实验可以看出，子代的高度和母本高度似乎并不相关，但似乎前者比后者更趋于平均。如果母本较高，那么子代就会变矮；如果母本较矮，则子代就会变高。实验显示，子代向平均值的回归与母本高矮的差异是成比例的。皇家科学院是世界上最古老的独立研究机构，高尔顿很期待该机构中博学的院士们也会对他那“值得关注的实验观察”感到惊讶。但真正值得关注的是，他为之惊讶的统计规律不过是像我们呼吸的空气一样稀松平常。回归效应随处可见，但是我们却无法识别它们的真面目。高尔顿以子代高度的回归现象为起点，逐渐发现当两个测量值之间的关联不是那么完美时，此时也会出现这种回归。他借助了当时最杰出的几位统计学家的帮助，且历时多年才得出这一结论。当按不同的标准衡量两个变量时，例如体重和钢琴技艺，如何测量这两个变量之间的回归是高尔顿要攻克的重大难题之一。要解决这一问题需要以人口作为参照标准。假设我们对某小学所有年级的100名儿童的体重和钢琴技艺进行测量，然后将两者按从高到低的顺序分别进行排列。比如说，简在钢琴技艺中排第三名，但按体重则排第27名，那么我们就可以说她弹钢琴的水平比她的体重排名靠前。我们来作些假设，这样就可以使这一现象更容易理解。不管年龄几何，钢琴技艺高低仅仅取决于每周练习的时长。体重多少仅仅取决于冰激凌的摄入量。冰激凌摄入量和每周练习钢琴的时长并不相关。现在通过排行（按统计学家的说法是“标准分”），我们可以得出更多的等式：体重等于年龄加冰激凌消耗量钢琴技艺等于年龄加每周练习时长你会发现，当我们通过体重预测钢琴技艺或通过钢琴技艺预测体重时，就会出现回归平均值的现象。如果知道汤姆在体重中排第12位（远高于平均值），我们就可以（从统计学上）推测他比平均年龄要大，而且可能比其他孩子吃更多的冰激凌。如果知道芭芭拉的钢琴技艺排第85位（远低于平均值），我们就可以推测她应当比大多数孩子年龄小，而且每周练习的时间也少。两个值之间的“相关系数”指的是两个值共有因素的相对比重。这个值在零和1之间浮动。我们拥有父母各一半的基因，对于像身高这种受环境因素影响很小的特征来讲，父母和子女的相关系数在0.5左右。下面的例子能帮助我们更好地了解相关系数：一个物体的型号用英制单位精确测量的结果与用公制单位精确测量的结果之间的相关系数为1。任何影响其中一个值的因素都会影响另一个。两者享有同样的决定性因素。美国成年男性自报的身高和体重之间的相关系数为0.41。如果将女性和儿童也包括进去，那么相关度就会更高，因为性别和年龄都会影响身高和体重，这便使得共有因素所占比例增加。学术能力评估考试成绩（SAT）和平均绩点（GPA）之间的相关系数大约是0.6。然而，研究生的潜能测试与成功之间的相关性则小得多，这在很大程度上是因为这一群体的潜能差异比较小。如果每个人都有相似的潜能，那么在衡量成功时，潜能的因素就不会占太大的比重。美国人收入和教育程度的相关系数约为0.4。家庭收入和他们电话号码后4位之间的相关系数为零。弗朗西斯·高尔顿用了好几年的时间才确定相关性和回归性并非两个概念，它们只是从不同视角对同一个概念作出的阐释。这个概念的原则很简单，但是影响却很深远：只要两个数值之间的相关度不高，就会出现回归平均值的情况。为了阐释高尔顿的卓见，我们来看一个例子，很多人都认为这个例子很有趣：聪明的女人常常会嫁给不如她们聪明的男人。如果你在朋友聚会时挑起这个话题，一定会引起热烈讨论，大家肯定都愿意分享自己的看法。即使有些对统计学有所了解的人也会很自然地用因果关系去解释这个现象。一些人认为高智商的女人为了避免和同样高智商的男人竞争才这么做；或者是在择偶之时不得不妥协，因为同等智商的男人不愿意与这些女人竞争……也许还会有其他更牵强的解释。现在我们来看看下面的表述：夫妻二人智商之间的相关性并不是绝对的。这个观点显然是正确的，而且很无聊。谁会期待这样一种相关性是绝对的呢？那就没有什么好解释的了。不过，你认为有趣的观点和你认为毫无意义的观点又是等值的。如果夫妻二人智商之间的相关性并不是绝对的（如果男人和女人在平均智商上没有差异），那么从数学上来讲，高智商女人嫁给那些不如她们智商高的男人是顺理成章的（反之也成立）。对于这一现象，用回归平均值效应来解释要比用并不绝对的相关性来解释更通俗，也更有说服力。你也许很同情高尔顿这样绞尽脑汁地解释回归的概念。统计学家戴维·弗里德曼（David freedman）曾说过，如果把回归的概念用在民事或刑事审判中，那么试图对陪审团解释“回归”的一方一定会输掉官司。为什么会这样呢？其中主要的原因也是本书中反复出现的主题：我们的思维常会对因果关系的解释带有很强的偏见，而且不善于处理统计数据。当我们把注意力集中在某一事件上时，相关的记忆就开始探寻其原因，更确切地说，我们会对所有早已存在于记忆中的原因进行自动搜索。当发现有回归效应时，因果关系解释就会被激活，但事实上这些解释都是不对的，因为回归平均值虽然可以用来解释现象，却无法找出其中原因。在高尔夫锦标赛中，那些第一天成功的选手通常在第二天发挥都很糟糕，而这场比赛总会吸引我们的注意力。对于这种现象最好的解释就是，那些选手第一天出奇地走运，不过这种解释缺乏我们的大脑所认可的因果关系因素。事实上，那些能够为回归效应提供巧妙解释的人往往赚得盆满钵满。如果一个商业评论员声称“今年的生意比去年要好，因为去年太糟了”，尽管他说得没错，但也很有可能很快就被电台噤声。我们理解“回归”概念存在很多困难，这些困难皆源自两个系统，系统1和系统2。在相当数量的案例中，即便提供了一些统计数据，若无特殊说明，“相关”与“回归”的关系还是相当模糊的。因此，系统2认为理解这种关系很难。因为从某种程度上讲，这是由于我们总是要求对事物进行因果关系解释，这也是系统1的一个特征。抑郁儿童喝了某种功能饮料，他们的情况在3个月内得到很大改善。这个新闻标题是我杜撰的，但这则新闻所报道的内容却是真实的：如果给一群抑郁儿童喝了某种功能饮料的话，一段时间后，他们的病情会有很大的好转。如果抑郁儿童每天都花一段时间倒立，或是把一只猫抱在怀里20分钟，这些举动也可以使病情好转。多数读者读了这则新闻之后会不由自主地认为：喝功能饮料和抱猫的行为的确使抑郁儿童的病情得到了改善，但这个结论却无法得到证实。抑郁儿童是一个极端群体，他们比大多数其他儿童要压抑得多，这些极端群体在一段时间之后会回归平均水平。一连串的测试反映出来的不同压抑程度之间并无绝对的相关性，因此回归平均值（或者更确切地说是回归平均水平）这种现象又会出现：即使他们不抱猫，也不喝功能饮料，一段时间之后这些抑郁儿童的病情同样会有所缓解。为了证明喝功能饮料或是其他治疗方法是有效的，我们必须要对两组患病儿童进行比较，实验组接受了治疗（比如喝过功能饮料），对照组没接受过治疗（或只是服用过安慰剂）。我们期望的是对照组仅通过回归就能改善病情，而该实验的目的在于判定接受治疗的病人是否恢复得更快。对回归效应作出错误因果解释的不仅仅是大众读者。统计学家霍华德。维纳曾经列出一长串杰出研究者的名字，他们也犯过同样的错误，将相关性和因果性混淆在一起。回归平均值是科学研究中的常见问题，有经验的科学家都会小心提防这种毫无缘由的因果推论所形成的陷阱。在我最喜欢的那些关于直觉产生预测错误的例子中，有一个是根据马克斯·巴泽曼（Max Bazerman）的《管理决策中的判断》（Judgment in Managerial Decision Making）一书中的内容改编而来的：假设你为一家连锁百货公司作销售预测。所有连锁店的规模和商品种类都非常相似，但是其地理位置、竞争状况以及其他随机因素使这些商品的销量有所不同。下列数据为2011年的营业额，请你对2012年的营业额进行预测。你已经知道自己可以接受经济学家所作的总体预测，销售额总体会增长10%。那么你将如何完成下列表格？读过本章，你就知道将每家店的销售额增加10%显然是不对的。你应当使自己的预测具有回归性：对于业绩不好的店，预测增长率应高于10%；对于业绩较好的店，预测值应低于这个值（甚至是负值）。不过如果你咨询其他人的话，很有可能会碰钉子：这么显而易见的问题还有什么好问的？正如高尔顿历经艰难才发现的那样，回归的概念从来就不是显而易见的。示例：回归平均值“她说经验教会她一个道理，批评比赞扬更有用。不过她不明白这是回归平均值在发挥效用。”“也许由于惧怕让众人失望，所以他的第二次面试没有第一次那样令人印象深刻，他第一次的表现太优秀了。”“我们的筛选过程并不是很完美，所以我们会考虑回归性。有些极其优秀的候选人也会让我们失望，对此我们并不感到惊讶。”第18章如何让直觉性预测更恰当有效生活中，许多场合都会用到预测。经济学家预测通货膨胀和失业率，财务分析师预测收益，军事专家预测伤亡人数，风险资本家预测利润率，出版商和生产商预测读者和消费人群，承包商预测项目完成所需的时间，工程师预测建造某建筑需要的水泥量，火场指挥员预测扑灭大火所需的消防车数量。一些私人问题同样需要用到预测，我们预测恋人在自己求婚时的反应，预测在新工作中需要作的自我调节。有些预测判断，比如那些工程师所作的预测，主要就是通过查找表格、精确计算以及对类似项目的结果进行仔细分析得来的。还有一些预测则需要直觉和系统1的共同参与，主要有两种类型。有些直觉主要依靠反复训练得来的技能和经验。加里·克莱因在《力量的源泉》（Source of Power）一书中及其他场合曾提到过象棋高手、火场指挥员和内科医生所作的快速自动判断及选择，用以阐释这种经验性直觉，即由于识别出熟悉的线索，大脑中快速呈现出当前问题的解决方案。还有些直觉有时从一开始就难以从主观上进行区分。这种直觉受启发法的影响，通常会用简单的问题来替代难以回答的问题。即使证据很不充分，决定亦不可更改，人们依此作出直觉性判断时往往也会信心十足。当然，许多判断，特别是专业领域的判断，受到了分析与直觉的共同影响。偏离预测方向的直觉让我们再来看看下面这个老问题：朱莉现在是一名州立大学4年级的学生。她4岁就能流畅地进行阅读。她的平均绩点（GPA）是多少？熟悉美国教育体制的人很快就能得出一个数字，且这个数字通常在3.7或3.8左右。为什么呢？原因在于，系统1的几个机制共同参与了预测。人们会探寻证据（朱莉的阅读能力）与预测目标（她的平均绩点）之间是否存在因果关系。这种关系可能不是直接的。在这个例子中，很小就能阅读与较好的平均绩点都是学术天分的表现，必然会存在某种联系。你（你的系统2）可能会否定朱莉在高中曾经赢得钓鱼比赛或是在举重比赛中表现良好的说法。这个过程被有效地一分为二。系统1能够摒弃那些无关或是错误的信息，但却无法弥补证据中相对较小的瑕疵。因此，直觉性预测对证据的实际预测结果几乎毫无感觉。一旦发现某种关联，例如朱莉很小时就能阅读，眼见即为事实原则就会发挥作用：你的联想记忆会快速自动地运用可利用信息编出最恰当的故事。另外，证据的评估与相关规范联系紧密。4岁时阅读能力就很强的孩子早熟吗？什么样的名次或者说百分制下得多少分才能与这样的能力相符？与这个孩子作比较的人群（我们称之为参照人群）也没能明确说明这一点，但与我们平时说话所遵循的规则相同。如果即将毕业于这所大学的某个人被赞为“相当聪明”，你几乎不必问：“当你说他‘相当聪明’时，脑子里想到的是哪些参照人群呢？”下一部分包括替代和快速配对。对于儿童时期认知能力这个并不周密的证据进行评估的问题被替换成关于她大学平均绩点问题的答案。朱莉的平均绩点和她小时候就能阅读这项能力的百分比值是相同的。这个问题明确规定答案必须在平均绩点的范围内，这也就要求另一个强度匹配的运作，即将你对朱莉的学术成就的总体印象与能证明她本人天赋的平均绩点这一证据匹配起来。最后的步骤是转化，将你对朱莉学术水准的印象转化为相应的平均绩点。通过强度匹配得到的预测结果与支持这个预测的证据一样极端，会导致人们面对两个不同的问题却给出相同的答案：朱莉的早期阅读能力成绩是多少（百分制）？朱莉的平均绩点是多少（百分制）？到目前为止，你应该很容易就能看出所有这些运作都是系统1的特点，我按照不同步骤依次将它们列在这里，当然联想记忆的大量激活并不遵循这一顺序。你应该将这种记忆大量激活的过程想象为以下几步：由信息和问题激发起联想记忆，然后自我反馈，最后选定最具连贯性的合理性方案。我与阿莫斯曾经在一个实验中要求受试者对8位大学新生的相关描述作出判断，这个描述是由一名辅导老师根据对新班级的访谈而写成的。每个描述由5个形容词组成，如下例所示：聪明、自信、笃学、勤奋、好问我们问了受试者下面两个问题：这个描述对你关于学术能力的想法有多大影响？你认为这些关于新生的描述令你印象深刻的可能性有多大（百分制）？这两个问题要求你根据自己的标准对新生进行描述，将自己的描述与辅导老师的描述进行对比，进而评估上述描述。你自身的评判标准存在着重大影响。虽然你根本不知道自己如何形成这一评判标准的，但你对这条描述承载的热情程度非常清楚：辅导老师认为这个学生是优秀的，但还算不上是最棒的，因为我们还有很多比“聪明”程度更深的形容词（杰出、有创造力），也有很多比“笃学”程度更深的词（博学的、渊博的），更有许多程度超过“勤奋”的形容词（积极的、力求完美的）。由此可以推测，（该生）成绩很有可能在前15%，但不太可能在前3%。人们在类似的判断中得到的结果出奇地一致，至少在相同文化背景的人群中是这样。/文！/我们问了实验中另一组受试者不同的问题：/人！/你估计这个学生的平均绩点是多少？/书！/新生中取得较高平均绩点的学生占多大比例？/屋！/你需要再三思考才能看出这两组问题的微小差别。这种不同本该很明显，但事实却并非如此。第一组问题只要求你作出评估，第二组问题则与第一组不同，包含了很大的不确定性。这个问题指的是在大学一年级期末的真实表现。自访谈后，这一年发生了什么呢？你怎样才能以5个形容词来预测这个学生在大学第一年的真实表现呢？如果这只是辅导老师本人通过与该生的访谈而作出的平均绩点预测，那么她的预测会准确无误吗？这项研究旨在比较两个判断结果（百分比成绩）：受试者通过评估一个案例中的描述做出的判断结果（百分比成绩）和另一个案例中的最终预测结果。结论很明显：两个判断结果完全相同。尽管两组问题不同（一组关于该生的描述，另一组关于该生未来的学术表现），但受试者将这两个问题看成了一个。与朱莉的例子相同，受试者并没有将对未来的预测和对当前信息的估测区别开来，预测与估测相匹配。这也许是我们得到的能证明替换存在的最佳证据。当人们按要求预测时，他们总会将预测替换为对所描述问题的估测，而且没有意识到他们回答的问题并不是那个被问到的问题。这个过程证明预测时会存在系统偏见；他们完全忽略了一点，即应该回归到平均值上来。在以色列国防军队服役期间，很长时间我都待在一支部队里，这支部队通过一系列面试及实战测试来挑选后备实训军官。成功预测的特定标准为这些人在军官学校的最终成绩。这些等级评定的效度非常低（我会在后面的章节详细说明）。若干年后，这支部队仍旧存在，而彼时我已成为一名教授，并且正与阿莫斯合作研究直觉性判断问题。我一直与这支部队的工作人员保持着密切联系，于是便请他们帮个忙。除了他们通常使用的评估候选人的评分系统以外，我还让他们猜测每个学员将来在军官学校中可能得到的分数。他们搜集了几百份这样的预测。所有作出这些预测的军官都知道学校给学员评分时用的是字母评分系统，也知道所有学员得到的A、B、C各等级的近似比例。实验结果令人惊讶：预测出来的A和B的频率几乎与学校的结业成绩中的A、B等级的频率等同。这些发现提供了一个引人注目的例子，这个例子涉及替代和强度匹配两个方面。作出预测的军官完全将这两个任务混淆在一起了：他们平时的任务是对候选人在该部队的表现作出评价。我让他们执行的任务是对候选人的未来成绩作出切实预测。他们运用强度匹配将自己的评级简单地转换为军官学校的评分结果。由于无法解决预测中存在（相当大）的不确定性，他们的预测又一次完全无法回归（平均值）。对直觉性预测的偏见进行修正我们回过头再来看朱莉，那个儿时阅读能力就很强的阅读者。前一章已经介绍过预测她平均绩点的正确方法。我在前一章中还为连续两天打高尔夫球的例子以及体重和弹钢琴的例子分别写了一个原理公式，在这里我也要为阅读年龄和大学成绩的决定因素写一个公式：阅读年龄等于共同因素加决定阅读年龄的特殊因素等于100%平均绩点等于共同因素加决定平均绩点的特殊因素等于100%共同因素包括由遗传决定的潜能、家庭支持学业的程度，以及能够造成人们在孩童时期成为出色的阅读者、青年时期又在学术上有所建树的所有其他因素。当然，许多因素只会影响到其中的某个结果，却不会对其他结果产生影响。朱莉可能是因为父母对她期望过高强迫女儿读书才这么早学会阅读的，也有可能因为一段不愉快的感情经历，她的大学成绩才那么糟糕，还可能在少年时滑雪出了事故导致脑部轻微受损等。回想一下上面两个测量公式的关联，即当前阅读年龄和平均绩点这两个公式，你会发现两者所考虑的共同因素在决定因素中所占的比例是一样的。你对这个比例能作出的最贴近的估测是多少？我给出的答案是最多30%。有了这个估测，我们就完全有条件作出不带偏见的预测了。按照以下4个简单步骤来做，我们就可以进行无偏见预测：1.先估测出平均绩点的平均值。2.根据你对证据的印象算出与之相匹配的平均绩点。3.对你的证据和平均绩点的关联作出估计。4.如果关联度是0.3，则从估算出的平均绩点的平均值中抽出30%，放到与之匹配的平均绩点里。步骤1为你提供了基准线，即在你除了知道朱莉是个快毕业的大学生之外什么也不知道的情况下，预测她的平均绩点。在没有信息的情况下，你很有可能预测其为一般水平。（这一点与你对汤姆的预测相似，在对他一无所知的情况下，你便将企业管理专业毕业生的基础比率放在了他的身上。）步骤2是你的直觉性预测，这个预测将你的估计和证据进行了匹配。步骤3使你离开基准线靠向自己的直觉，但你能离开的距离取决于你对关联性的估测。在步骤4中，尽管你最终作出的预测还是受到了直觉的影响，但是这个影响力已经小很多了。这种预测方法很常见。在你需要预测一个定量数值时，就可以运用这个方法，例如在预测平均绩点、投资效益、公司发展的业绩时，这个方法就可以派上用场。这个方法以你的直觉为基础，但是削弱了直觉的影响，使它回归到平均值上了。当你有充分的理由对自己的直觉性预测的准确性充满信心时，即证据和预测之间联系非常紧密，进行调整的余地就会很小。直觉性预测需要校正是由于它并不具有回归性，因此是带有偏见的。假设我预测每一位高尔夫球员在一场锦标赛上第二天的得分与第一天的得分相同，那么这个预测并没有考虑到回归平均值的问题：第一天发挥得好的高尔夫球员第二天比赛时水平都会有所下降，而那些头天状态不佳的球员则大多会在第二天有所提高。当我们最后将预测值与实际结果进行比较时，我们会发现，缺失回归性的直觉确实带有偏见。这些预测普遍对第一天发挥得好的人过于乐观，对开始就发挥得不怎么样的人则过于悲观。预测与证据一样极端。同样，如果不使预测回归到平均值上来，而是根据儿童时期的成就来预测其大学时期的分数，那么你多半会对孩提时代阅读能力强的人在大学时代取得的学术成绩颇感失望，而那些较晚开始阅读的孩子的大学成绩反而会给你带来惊喜。修正过的直觉性预测消除了这些偏见，所以预测（过高或过低）高估真实值或低估真实值的可能性大致是相等的。当你不带偏见地预测时仍然会犯错，但这时的错误较小，也不会导致过高或过低的估值。两位教授候选人，应该选择哪一位？前文中，我向大家介绍了汤姆的情况，用以说明不连续结果的预测问题，比如对其所属的专业领域或者一次考试的成功概率进行的预测，这些预测是通过评估某一特定事件的可能性（或者按照结果出现的可能性大小排序）来表达的。我还曾描述过抵制不连续预测中的常见偏见的步骤，比如忽略基础比率，对信息的优劣不敏感。有些预测偏见是通过一个数值范围来表达的，例如某学生的平均绩点或某公司的收益，这些偏见与我们在判断结果的可能性的过程中所持偏见相似，而两种偏见的修正过程也十分相似：都包含一种基准线预测，如果你对手头这个案例的情况一无所知，便会作出这种预测。在绝对的情况下，这个基准线是基础比率；在有数字的情况下，这个基准线就是相关结果的平均值。都包含一种直觉预测，无论是可能性或是平均绩点，这种预测会将呈现在大脑中的数值通通表达出来。在上述两种情况中，你的目的都是要作出一种预测，这种预测可在基础比率和直觉性反应之间充当媒介。在没有什么有价值的信息的情况下，你会坚守基准线。在其他极端情况下，你还会坚守自己最初的预测。当然，只有在对支持自己最初预测的证据进行过严格验证之后，你才会信心十足地坚持那个预测。在大多数情况下，你会发现自己有理由怀疑自己的直觉判断和真理之间的关联其实并不完美，而你最终会给出介于两者之间的判断。这个过程很接近一个恰当的统计分析可能会出现的结果。如果成功的话，这个过程就会使你作出的预测偏见越来越少，作出的可能性评估越来越合理，对各种数值作出的预测也越来越适度。前述两个过程意在解决同一种偏见，即直觉性预测总是过于自信或过于极端。修正你的直觉性预测的偏见是系统2的任务。要想找到相关的参照物、对基准预测作出估测或者对证据的质量进行评估，往往需要付出很大的努力。只有在风险很高而你又特别渴望避免犯错误时，这种努力才显得合乎情理。此外，你应该知道纠正你的直觉也许会使你的生活变得复杂。无偏见预测的一个特征就是，只有在信息非常有效时才允许人们对罕见或极端的事件作出预测。如果你期待自己作出恰当有效的预测，那么你的预测结果就永远不会太离谱或者偏离平均值太多。而如果你的预测不存在偏见，你也就永远不会有极端事件的“愉快体验”了。当你在法学院最得意的学生成为最高法院的法官时，或者当你曾经很看好的那家新成立的公司成为商界新秀时，你永远不会说“我早就知道会这样”。如果信息量有限，你也无法预测到一个出色的高中生会成为普林斯顿大学的优等生；同理，一个风险资本家永远不会认为新创立的公司在起步阶段时成功的概率会“很高”。一定要严肃对待那些反对适度的直觉性预测原则的意见，因为摆脱偏见并非总是头等大事。如果不问具体情况，对所有预测的错误都同样对待，那么对无偏见预测的偏爱就是合理的了。然而总有那么一些时候，一种错误比另一种错误更糟糕。若一位风险投资家只为寻找“下一件大事”，那么他错过下一个谷歌或脸谱网的风险就会远远大于对刚刚创立的公司（最终破产）进行适度投资带来的风险。风险投资家的目标是正确判断极端情况，甚至以高估其他许多风险为代价也在所不惜。对于借出大笔贷款的保守银行家来说，某一位借款人破产带来的风险会比拒绝几位可能会履行债务的潜在客户带来的风险更大。在这种情况下，即使作出这些判断所依据的信息效度只是适中，使用极端的语言（“前景非常好”，“违约的严峻风险”）也可能会为其带来舒适感。对于一个理性的人来说，无偏见且适度的预测不应该引发问题。毕竟一个理性的风险投资家知道，即便是最有前景的新建公司，其成功概率也只是中等水平而已。她将自己的工作视为从所有赌注中找到的前景最好的赌注，而且关于要投资的那家新建公司的发展前景问题，她觉得没有必要欺骗自己。同样，预测某家公司收益的理性个体不会受到某个数字的束缚，他们应该考虑到最有可能出现的那个结果的不确定性。如果成功的回报足够大，一个理性的人就会考虑向一家极有可能倒闭的企业投资一大笔钱，而不会自欺欺人地抬高其成功概率。然而，我们并不都是理性的，我们中的一些人也许还需要歪曲判断作为保护来掩盖自己的无能为力。如果选择接受极端的预测来蒙蔽自己，你就会清楚地意识到自己对自己的纵容。也许我提出来的那几个修正步骤最难能可贵的贡献就是这些步骤会要求你思考自己对事情到底了解多少。接下来我会运用一个学术界尽人皆知的例子，其他生活领域中的例子亦可依此类推。一个部门要雇用一位年轻的教授，他们希望这位教授未来的学术能力能够达到最高水平。该部门的调查委员会最后将候选人圈定为两个：金最近完成了毕业设计。她的推荐信中都是对她的溢美之词，而且面试时她说得也很好，给在场的每个人都留下了深刻的印象。不过她没有什么实质性的科研成果。简经过过去3年的学习取得了博士后头衔，学术成果颇丰，研究也做得非常出色，但她在面试时表现得不如金出色。我们直觉会选择金，因为她给人的印象更深刻，而且眼见即为事实。但与简的信息相比，金的相关信息则少很多。我们可以回想一下小数原则。事实上，你从关于金的描述中得到的信息样本比简的要小，而且在小样本中更容易发现极端的结果。小样本的结果往往有更多的运气成分，因此在判断金将来的表现时，更应该回归平均值。若觉得金更有可能退步，最终你就会选择简，尽管你对她的印象并不深刻。如果按照学术能力来选人，我会投给简一票，但我得先努力克服自己对金的直觉印象，金更有希望。跟着我们的直觉走比违背直觉感觉更自然、更亲切。你很容易就能想象出不同情境下的相似问题，例如某位风险投资家要在位于不同市场中的两家新建公司之中选出一家进行投资，他可以相当精确地预估其中一家公司的产品需求量，而另一家是一派欣欣向荣的景象，让人觉得更有希望，但其发展前景却并不是很确定。如果把这种不确定因素考虑在内的话，你对第二家公司前景的最佳猜测是否还会优于第一家公司呢？这个问题值得认真思考。信息不足时，极端预测和预测罕见事情的愿意都源于系统1。联想机制会很自然地将极端预测和作出这些极端预测所依据的可察觉的信息极端性匹配在一起，这也正是替代的运行机制。而且系统1形成过于自信的判断也是正常的，因为自信是由你根据可得信息提炼出来的最合理故事的连贯程度决定的，这一点我们都明白。但要注意：你的直觉会产生极端预测，而你也很容易对这种极端信心满满。回归性也是系统2的一个问题。回归平均值这一概念很新奇，沟通和理解皆非易事。高尔顿在弄懂这一概念之前也颇费了一番心思。很多统计学老师在讲到这一问题时，心中也很没底，学生们最后对这个重要概念也是似懂非懂，只有个很模糊的概念。这个例子说明系统2需要经过特殊训练。将预测和信息匹配起来不仅是我们的直觉行为，这样做似乎也是很合理的。我们无法根据经验理解回归性。即使我们对回归性已经有了明确认识，就像我们在飞行教练员的故事中看到的那样，也只会用因果关系来解释这一特性，而这个解释往往又是错的。示例：直觉性预测“那家新成立的公司已经深入人心了，但我们不能指望他们将来也能做得这么好。他们的营销之路很长，回归的空间也很大。”“我们的直觉性预测的确令人鼓舞，但这个预测可能离现实太远了，还是让我们再看看手中的信息资料，让预测回归到平均状态吧。”“即使这次投资极有可能失败，我们还是觉得这项投资可能是个不错的想法。咱们还是别说什么这就是下一个谷歌这样的话吧。”“我读过关于那个品牌的一篇评论，评价极高，然而这很可能只是侥幸成功。我们应该这样想：对这个品牌的评论很多，而我们看到的这个正巧是评价最高的。”第三部分过度自信与决策错误第19章 “知道”的错觉纳西姆·塔勒布身兼商人、哲学家、统计学家等多种角色，还被视为心理学家。他在自己的著作《黑天鹅》中，引入了“叙事谬误”的概念，用来描述存有缺憾的往事是如何影响我们的世界观和我们对未来的预期的。我们不断试图去了解这个世界，在这个过程中难免就会产生“叙事谬误”。能够吸引人们眼球的那些说法往往很通俗易懂，那些说法具体而不抽象，它们认为天资、愚蠢和意图的作用都要超过运气的作用，它们关注的是少数几件已经发生的重大事件，而不是无数件并没有发生的事。任何新近发生的有影响的事都可能成为一个存在因果关系的故事的核心情节。塔勒布指出，我们人类常会为过去的憾事编造牵强的解释，并信以为真，以此来蒙蔽自己。好的故事为人们的行为和意图提供了简单且合乎逻辑的解释。你总是喜欢将行为看成是一般习性和个性特征的外在表现，你可以很轻松地找到这些结果的原因。此前讨论的光环效应是思维连贯性形成的部分原因，因为这一效应使我们更有可能将自己对某人所有品质的看法和对其特别重要特质的判断匹配起来。例如，如果觉得这位棒球投手又帅又强壮，那我们也很容易会认为他投球水平一定很高。光环效应也可能是负面的：如果觉得一位运动员很丑，我们就很可能会低估他的竞技能力。光环效应通过夸大评估的一致性来保持简单和连贯的特点：好人只做好事，坏人全都很坏。“希特勒喜欢狗和小鸡”这种说法，不论你听过多少次，无论如何都不会相信。因为根据光环效应，如此坏的人是不会有任何善意的，而这句话却违背了这一点。一致性使我们的想法有些固执，感觉模糊不定。引人入胜的故事会使人产生某种必然性错觉。谷歌变身为科技产业巨人的故事就是一例。斯坦福大学计算机科学系有两位极富创造力的研究生，他们想出了一个在互联网上搜寻信息的好方法，于是便筹集资金创建了一家公司，此后又连续做出很多行之有效的决策。几年后，他们创建的公司成为美国股票市场上最有价值的一家，这两位研究生也跻身全球顶级富豪之列。不同寻常的机遇再加上好运气使得这个故事引人入胜。谷歌上市一年后，他们就想以不到100万美元的价格卖掉公司，但买方却说太贵了。虽然详尽的历史更能详细说明谷歌创始人当时的决定，但我们前面的叙述已足以说明两位创始人当时所作的每一个决定几乎都为他们带来了美好的结局。一个更完整的故事还可以描述谷歌打败的那些公司所采取的行动，这些倒霉的竞争者似乎很盲目，它们行动迟缓，而且没有足够的能力来对抗谷歌的威胁。尽管我在讲述上述故事时刻意采用了平淡的口吻，但你仍然会有这样的想法：这个故事非常棒。如果加上更多细节，这个故事就会让你觉得自己明白谷歌成功的秘诀。它还会使你感觉自己学到了颇具价值的重要一课，了解了企业成功的秘诀。但不幸的是，我们有足够的理由相信，你对谷歌这个例子的理解和认识大都是错觉。想知道一个解释是否行得通，可以对它作一个最终测试，看它能否使这个事件事先就能被预测到。谷歌成功的故事就符合这样的测试，因为这其中没有哪一个故事会包含无数个可能会导致不同结果的事件。人类的大脑无法妥善处理没有发生的事情。事实上，很多实实在在发生过的重要事件中包含着众多抉择，这些抉择会诱导你夸大技能的作用并低估运气对最终结局的影响。因为每一个重要决策都有好的结果，上述故事堪称一个几乎毫无瑕疵的预言，但坏运气本来极有可能扰乱这些成功的步伐。光环效应还有最后一个阶段，即给该故事的主角戴上不可战胜的光环。如同看着一位技能娴熟的筏夫沿激流而下时巧妙地躲过一个又一个暗礁险滩一般，阅读谷歌的故事之所以令人振奋也是因为故事中艰难风险接连不断。然而，两者间有着很大的不同。技能熟练的筏夫有过上百次顺激流而下的经验，他能通过观察眼前的激流预测哪里有障碍，他学过如何对姿势进行微调来保持正确的方向。但对于年轻人来说，却没有多少机会去学习如何创建一家大型公司，更极少有机会学习如何避开潜在的风险，比如说他们的竞争公司推出了一款超级棒的新品。当然，谷歌公司的案例也包含了大量的技能，但运气在公司的实际运作中发挥的作用远远超出了故事中所讲述的那个水平。运气的成分越多，从中能学到的就越少。此处发生作用的就是强大的眼见即为事实原则。你会不由自主地去处理手头有限的信息，好像这些信息就是全部事实了。根据这些可得信息，你构建出最可能的故事，如果这个故事还不错，你就会相信它。然而自相矛盾的是，在自己所知甚少或是谜题的答案只是初露端倪时，我们却更容易构建出一个连贯的故事。我们满心相信这个世界是有意义的，这份信心建立在一个稳妥的基础之上：我们最大限度地忽略自己的无知。我曾听说太多人“在2008年金融危机发生前就知道这场危机不可避免”。这个句子中含有一个极有可能引发异议的词，在讨论重大事件时，这个词本不该出现在我们的词汇当中。这个词当然就是“知道”。有些人事前清楚地意识到可能会发生危机，但他们却并不“知道”究竟是什么危机。而他们现在却说他们当初就知道这场危机，那是因为危机确实发生了。这是对一个重要概念的误用。在日常生活中，只有在所了解的事情属实且其表现也真实的情况下，我们才会用“知道”这个词。但是那些当初认为会有危机的人（当初本没有那样多的人这样想，而如今却有更多人声称记得自己当时就是这样认为的）在当时并不能十分确定地指出危机是什么。很多聪明且见多识广的人对经济前景怀有浓厚的兴趣，并不相信灾难已经迫近。我从这个事实推论：危机是不可知的。在这个情境中运用“知道”一词很反常，并不是因为有些人因为这种预知能力获得了本不应属于他们的赞赏，而是这个词给人一种暗示，使人觉得这个世界比事实上更可知。这个词使得人们心中存有一种致命的错觉。这个错觉的核心是我们认为自己了解过去，这也表明未来也应该是可知的，但事实上，我们对过去的了解比我们自认为能够了解的要少。“知道”不是唯一一个会引起错觉的词。“直觉”和“预感”等词一般也可用来形容过去的想法变成了现实。“我预感这段婚姻不会长久，但我错了”这句话听上去有些奇怪，而类似“一种直觉最终被证实是错误的”这样的说法听来也很奇怪。为了想清楚未来，我们需要清除自己过去曾经用来表明信念的语言。后见之明的社会成本将从前的事编成叙事故事的大脑区域是构建意义的器官。当一件不可预知的事情发生时，我们会立即调整自己的世界观以适应这种意外。试想自己正在看一场足球赛，比赛双方的输赢记录相同。现在比赛结束了，其中一方击败了另一方。在你修正过的世界观里，赢得比赛的球队比输掉比赛的球队更加强大，你对过去和将来的看法也已经被这种新感觉改变了。从各种意外事件中积累经验的做法值得一试，但这样做也可能会导致一些危险后果。人类大脑的常规局限使它没有足够的能力重构过去的知识结构或信念。一旦接受了一种新的世界观（或对世界某一方面的看法发生了变化），你就会立即丧失很大一部分回忆能力，无法回想起自己观点改变之前的那些想法了。很多心理学家曾经研究过人们观念发生改变时究竟发生了什么这一问题。实验人员选了一个尚无定论的话题，比如说死刑，之后他们仔细测试了受试者的态度。接下来，受试者们会看见或听见一则颇具说服力的信息，这则信息对所选话题持或赞同或否定的态度。然后实验人员再次测试受试者的态度，受试者往往倾向于他们看到或听到的那个观点。最后，受试者要说出自己在实验前的观点。这项任务也许很难。受试者被问到之前的观点时，说的往往就是现在的观点，这便体现了替代理论，而且很多人都无法相信他们之前的观点与现在的不同。你无法重构过去的想法，这种情况会不可避免地导致你低估自己受往事影响的程度。巴鲁克。费斯科霍夫率先揭示了“我早就知道”效应，或者说“后见之明”现象，当时他还在耶路撒冷读书。在尼克松1972年访问中国和苏联之前，费斯科霍夫和鲁斯。贝斯（我们的另一名学生）作了一项调查。受试者需要对尼克松此次外交破冰之行中可能出现的15种结果的可能性作出评估。毛泽东会同意与尼克松会面吗？美国会在外交上承认中国吗？眈眈相向几十年之后，美国还会和苏联就重大问题达成共识吗？尼克松访问结束后，费斯科霍夫和贝斯让这些人回想他们对15个可能出现的结果的预测。结果很明显。如果一个事件果真发生了，人们就会夸大自己此前作出的预测的可能性；如果可能的事件并未发生，受试者就会错误地回忆说自己当初一直都认为此事发生的可能性不大。接下来的多次实验表明，人们不仅会高估自己最初的预测，还会高估其他人作出的预测。引起公众注意的其他事件中也出现了相似结果，例如辛普森谋杀案和比尔。克林顿总统的弹劾事件。根据发生过的事来改变个人的想法会产生深刻的认知错觉。后见之明的偏见对决策者的评估行为有着恶劣影响，它导致观察者不是根据判断过程的合理性来评估一个判断的好坏，而是以结果的好坏作为判断标准。假设有一个低风险的外科手术，手术期间发生了一件始料未及的事故，病人因此死亡。事后，陪审团更倾向于相信手术本来就存在风险，而且主刀医生应该比其他人更清楚这一点。即使在制定决策时其想法是合理的，这一结果偏见也会使人们几乎不可能对他的决策作出正确评估。后见之明对那些决策制定者而言尤其无情，他们的工作就像是为他人做代理人，这些人包括医生、金融顾问、三垒教练、执行总裁、社工、外交家以及政治家等。好的决策如果产生了坏的结果，我们就会责备那些决策制定者；而对那些只是在事后才能明确看出是正确的决策而言，其制定者也不会因此得到什么赞扬。这便是典型的“结果偏见”。若结果很糟糕，客户常会责备代理人没有看清墙上的笔迹，却忘了这笔迹原是用隐形墨水写成的，只有在事后才能变得清晰可辨。事前原本感觉很是谨慎的行动在事后也会被看成是不负责任的过失。曾经有一项以一个真实法律案例为基础的实验，实验人员问加利福尼亚大学的学生，明尼苏达州的德卢斯市是否应该花一大笔钱租用一个全天候大桥监控器来监视桥体，防止出现瓦砾阻塞河流的风险。其中一组学生只是看了该市做决策时的已有材料，其中24%的学生就认为德卢斯市应该承担租用洪水监控器的花销。第二组受试者则被告知瓦砾已经阻塞了河流，并引起了重大洪灾。尽管实验人员已经明确告诉他们不要让后见之明妨碍自己的判断，但这组中仍有56%的学生认为该市应该租用监控器。结果越糟糕，后见之明的偏见就越严重。遇有重大灾难发生时，比如“9·11”恐怖袭击事件，我们尤其容易相信那些没能预见到这场灾难的官员玩忽职守，置公民安全于不顾。2001年7月10日，中央情报局得到消息：基地组织可能正在谋划一次针对美国的重大袭击。时任中央情报局局长的乔治·特尼特（George Tenet）并没有把这则消息传达给总统乔治·W·布什，而是告知了国家安全顾问康多莉扎·赖斯（Condoleezza Rice）。当事实浮出水面之后，《华盛顿邮报》的传奇编辑本·布莱德里（Ben Bradlee）表示，“如果你对即将主宰历史的事件有所了解的话，也许就有机会直接登上总统宝座了，我认为就是这么简单”。但在7月10日这天，没有人知道，或者说有可能知道，这则消息最终会在历史上留下重重的一笔。很难在事后评论人们是否严格依照标准运作过程行事，因此那些希望自己的决定能经受住后见之明检测的决策制定者只好采用官僚的做派，极不情愿冒风险。由玩忽职守引起的起诉变得越来越常见，内科医生们以多种方式改变了自己的诊疗程序：要求患者作更多检查，请教专家更多病例，采用保守疗法，即使这些方法未必奏效也要用。这些行为与其说对病人有益，倒不如说是保护了医生，埋下了利益冲突的隐患。不断增强的责任可谓福祸参半。尽管后见之明和结果偏见总会有滋生风险之嫌，却也会给那些不负责任的冒险者带来不应得的回馈，例如某位将军或企业家一次疯狂的冒险举动竟然成功了。那些一直很幸运的领导者不但从未因冒太大的风险而受到惩罚，相反，人们总会相信他们有很强的鉴别力和先见之明，能够预见成功；而那些曾经怀疑过他们的明智的人事后也会被视为平庸、胆小、懦弱之辈。几次幸运的冒险便会给一个不顾后果的领导人罩上耀眼的光环：极富远见、英勇果敢。真的存在能让企业基业长青的秘诀吗？系统1的意义构建体系会让我们认为这个世界比现实中的更整洁、更简单、更可预知，且更富逻辑性。认为人类对过去了然于心这一错觉会带来更深层次的错觉，以为人类可以预知并控制未来。这些错觉会让人感到安适，如果我们允许自己充分接受世间事物的不确定性，这些错觉还会减轻自己将要体验的焦虑。我们都需要一颗定心丸，想知道我们的行动会有恰当的结果，想知道智慧和勇气一定会带来成功。很多商业书籍都是因此而应运而生的。领导者和管理措施是否会影响上市公司的最终成绩呢？回答是：当然会，而且其影响已被系统研究证实了，这些研究客观评估了众多执行总裁的个性特征及其决策，并将这些评估结果与公司后来的业绩联系在一起。在一项研究中，各位执行总裁的性格特征常常会受到他们之前所在公司的策略的影响，在现公司走马上任后，还会受到公司管理规定和程序的影响。诸位执行总裁的确会影响公司业绩，但这种影响远比商业书籍中所宣称的小得多。研究人员运用相关系数测量了上述（总裁个性与公司业绩之间）的相关系数，这个值在零到1之间变化。此前定义过了相关系数（和回归平均值的关系），即看共有因素在多大程度上对两种测量方式发生作用。公司成功和执行总裁特性之间的相关系数的最高值可能高达0.30，这就表明两者间有30%的重叠部分。为了充分了解这个数字的意义，请思考下面的问题：假设你要考虑很多组公司的情况。每组的两个公司情况大致相同，但其中一个公司的执行总裁比另一个优秀，那么你多久才能发现那个执行总裁比较优秀的公司会是这组中较强的？在一个秩序良好且可预知的世界中，相关系数会很高，而且你会发现每组中能力较强的执行总裁百分之百会领导那个更成功的公司。如果相似企业的相对成功完全是由其执行总裁控制不了的因素决定的（你也可以将这些因素称为运气），你就会发现，更成功的公司有50%的概率是处在较弱的执行总裁的领导之下的。0.30的相关系数表明你会找到那个能力更强的执行总裁来领导所有小组中60%较强的公司，这比随意猜想提高了10个百分点，这个结果充分印证了我们常常见到的对执行总裁英雄崇拜的现象。如果你曾经希望这个数值更高，我们中的大多数人都这么希望，就应该将这种想法视为自己容易高估现实世界的可评估性的标志。不要犯错：将成功概率从1：1提高到3：2是非常重要的，无论是在跑道上还是在商界中，都是如此。然而，在大多数经济书籍的作者看来，一位对公司业绩几乎没有什么控制能力的执行总裁是不会给人留下特别深刻的印象的，即使这家公司运行良好，人们也不会对他有什么印象。很难想象人们会在机场书店排起长队去买一本满怀热情描述商界领袖管理经验的书，因为这些领导的表现一般而言也就比仅凭运气强那么一点。消费者亟须对决定企业成功与失败的因素有个明确的了解，他们需要一些信息帮助自己了解这些因素，哪怕这些信息有多虚假都无妨。身为瑞士一所商学院教授的菲利普·罗森茨威格（Philip Rosenzweig）曾写过一本书，《光环效应》（The Halo Effect），该著作颇有见地。他在书中表明，有两种类型的商业书籍很受欢迎，能够满足人们对虚幻确定性的需求。这两种类型包括：描写特别的个人和企业（常见的）成功与（偶尔）失败的历史；分析成功与比较成功企业之间的区别。他总结道，成功和失败的故事常会夸大领导风格和管理措施对公司业绩的影响，因此这些故事基本上都没什么用。为了理解正在发生的事情，我们假设一些商业专家，比如说其他公司的首席执行官，应邀对某家公司的执行官进行声誉评估。这些首席执行官非常清楚该公司最近是在走上坡路还是下坡路。与此前了解的谷歌案例一样，本例中产生了一种光环效应。人们很可能认为一家成功公司的执行总裁必定是头脑灵活、讲究方法、行事果断的人。假使一年过后事情变得很糟糕，人们又会将同一位总裁描述成稀里糊涂、僵化死板、独断专行的人。两种描述当时听上去都是正确的：看起来说一位成功的领导者僵化死板、稀里糊涂是很荒唐的，而说一位苦苦挣扎的领导者头脑灵活、讲究方法似乎也很奇怪。明明是同一个人和同样的行为，在事情进展顺利时就是讲究方法，而事情进展不顺利时就成了死板，光环效应的影响的确太大了，因此你也许会发现自己对前述想法十分抵触。由于光环效应，我们将因果关系抛到脑后：我们很容易相信公司的失败是因为其执行总裁僵化死板，而真实情况是其执行总裁之所以显得死板是因为这家公司正每况愈下。错觉就是这样产生的。在对成功企业的系统研究中寻求其经营之道的书籍为什么格外有吸引力？将光环效应和结果偏见结合起来就可以对这个现象作出解释了。这种类型的书中知名度最高的有那么几本，其中一本是吉姆·柯林斯（Jim Collins）和杰里·波勒斯（Jerry I·Porras）合著的《基业长青》（Built to Last）。这本书包含了关于18组相互竞争的公司的全部情况分析，每组中都有一家公司比另一家更为成功。这些对比数据包括对企业文化、经营策略和管理措施等众多方面的评估。两位作者在书中宣称：“我们认为世界上每一位执行总裁、经理和企业家都应该读读这本书，读过之后你就能建造一家梦想的公司。”《基业长青》和其他类似书籍的基本概念是：良好的管理措施会得到认同，而执行这些措施会带来丰厚的回报。这两点都有些言过其实了。公司是非常成功还是不怎么成功，其间的区别在很大程度上要看这家公司是否幸运。知道了运气的重要性，看到非常成功和不怎么成功的公司在对比过程中体现的高度一致的模式，你就尤其应该持怀疑态度。因为存在不可测性因素，我们根本就不可能建立什么有规律的模式。因为运气起到很大的作用，所以我们无法通过对成功的预测推断出领导水平高低和管理措施优劣。即使你的预测非常准确，知道总裁有绝佳的洞察力和超群的能力，你还是不能预测这家公司会如何运转，你的预测比抛硬币的结果强不了多少。《基业长青》一书中对卓越的企业和不怎么成功的企业的对比研究显示，总体上讲，在该研究过后的一段时间里，两类企业在企业效益和股票收益等方面的差距几乎趋近于零。在《追求卓越》（In Search of Excellence）这本著作中提到的各家公司的平均赢利额也在很短的时间内大幅下降。《财富》月刊做了一项关于“最受推崇的公司”的调查，调查发现，在过去20年里，评级最差的公司比最受推崇的公司的股票收益更高。你可能会试图用因果关系来解释这些观察到的结果：也许成功的公司变得自满了，不怎么成功的公司则更努力。然而，这么想是错的。必须缩小这个平均差距，因为最初的差距大都是因为运气所致，是运气使顶尖公司成功，使其他公司落后。我们已经遭遇过实实在在存在的统计学事实：回归平均值。通过提供人类大脑所需，企业成败的故事与读者实现了共鸣，这里的所需指的是关于成败的简单信息，其中明确表明了原因，忽略了运气的决定性力量和回归的不可避免性。这些故事引起并维持了关于了解的错觉，同时给读者上了一些没有什么持久价值的课，但这些读者却偏偏愿意相信这些内容。示例：后见之明“这个错误很明显，但这不过是后见之明，你事前根本无法知道。”“他从这则关于成功的故事中学到了太多，多得有些过头了，他现在已经陷入了叙事谬误的误区。”“她说这家公司经营不善，真是无稽之谈。她并不了解这家公司，只知道其股票在下跌。这是结果偏见，其中一部分是后见之明，一部分是光环效应。”“我们不要带有结果偏见。尽管结果偏见有时也很管用，但这个决定是很愚蠢的。”第20章未来是不可预测的系统1在信息有限的情况下也能得出结论，但我们却无从得知得出这个结论的过程有多复杂。因为有了眼见即为事实原则，所以只有眼前的条件才是最重要的。逻辑上的连贯性能给人信心，而我们在观点中表现出的主观自信也反映出系统1和系统2所构建的情景的连贯性。证据的数量和质量并不那么重要，因为即使证据十分苍白也能构建一个非常连贯的故事。对于一些最重要的信念，我们其实根本就没有什么证据来证明其合理性，我们怀有这些信念仅仅是因为我们所爱的人和所信任的人也持有同样的信念。由于所知甚少，我们对自己信念的信心是毫无缘由的，但这种信念也很重要。士兵测评的有效性错觉几十年前，我在以色列军队服兵役。当时我已经拿到了心理学学士学位。做了一年的步兵军官后，我被派到部队的心理科，有时候我需要对士兵进行测评，看其是否完成了军官培训科目。我需要在炎炎烈日下站很长时间，观察几组汗流浃背的士兵是如何解决问题的。我们使用的测评方法是英军在“二战”时开创的方法。其中一项实验名为“挑战无领导小组”，这项实验是在障碍训练场上进行的。参加实验的有8个士兵，他们之间互不相识，军衔都被摘掉了，身上只贴数字标签以作鉴别，他们的任务是将地上的原木拖过6英尺高的墙。全组所有人都必须翻过墙且原木既不能碰到地也不能碰到墙，而且任何人都不许碰到墙。一旦出现了任何一种违规情况，他们就必须报告并从头再来。解决这个难题的办法有很多种。其中一个普通的办法就是让几个人像拿钓鱼竿一样按照一个角度把住原木，其他人通过原木攀缘而爬过墙。或者让一些士兵踩着他人的肩膀跳过墙去。到最后一个人时，其他人就要按照一个合适的角度把住原木，此时原木的一端是悬空的。待他跳上原木后，翘起原木，让他滑过去，最后安全地跳到墙的另一面。在这一环节中，失败是常有的事，他们需要不断从头再来。我和另一位同事看着他们训练，记录下是谁在指挥其他人，是谁想要领导却被断然拒绝，还要关注每位士兵的合作精神对整个小组能力的影响情况。我们发现有人固执，有人顺从，有人自负，有人脾气暴躁，有人执著，而有人其实就是个逃兵。有些人的想法一旦被小组否定了，他们就不再那么努力了。然而，从这些人身上我们有时也能看出些斗志来。我们还观察了这几位士兵面对危机时的反应：有人会斥责那个导致整组沦陷的人，有人在这个精疲力竭的小组还需从头再来时打头阵。在这个测验的压力下，我们感到其中每个人都展现了自己的天性。我们对参加实验的每位士兵性格的印象就如同天空的颜色那样真切、那样深刻。观察过这些士兵完成的几次测试之后，我们就要对他们的领导能力和决策能力进行总结，而且要用分数表示谁在军官训练中是合格的。我们深入讨论了每一次测试，回顾了我们对他们的印象。这项任务并不难，因为我们感觉自己已经看到了每位士兵的领导能力。有些人像是强势的领导；有些人则比较懦弱，或是自大愚蠢；还有的人虽然平庸但并非无药可救。有几个人看上去非常软弱，只能将他们从军官候选人行列淘汰出去。在将对每位士兵的多角度观察汇集成连贯的情况时，我们对自己的评估很有信心，感觉我们所看到的一定是他们未来的发展。当小组遇到麻烦时，敢于担当并带领团队翻过障碍墙的士兵当时就是整个队伍的领导者。那么，他在训练中或战场上会如何表现呢？显然大家都会猜测他会像在翻墙训练中表现的那样非常高效，其他的推测都不太可能，因为现实情况就摆在我们眼前。因为对每位士兵表现情况的印象总体来看是清晰且明确的，所以我们在正式预测时也没有任何迟疑，脑海中通常只会出现一个分数，几乎不会有心生疑虑的情况，也极少有自相矛盾的情形。我们很愿意这样断言：“这个士兵根本不行”，“这个比较平庸，但还算可以吧”，或者说“他将来肯定是个人才”。我们觉得没必要质疑自己的预测，也没有必要过低预测或者只说些模棱两可的话。但如果有人对这份测评结果提出质疑，我们也愿意承认，会说“当然了，什么都可能发生”。之所以愿意承认这一点，是因为不管我们对参与测试的每位士兵的印象如何，都十分确信这份预测在很大程度上是无效的。事实表明，我们根本就无法对参与测试的士兵的表现进行准确的预测。每隔几个月我们就会召开一次反馈会议，会上我们会了解这些新兵在军官训练学校的表现，并将我们（对他们）的评估和管理过他们一段时间的教官的意见进行对比。每次得到的结果几乎总是相同的：我们对这些士兵在军官学校的表现进行预测的能力弱到完全可以被忽略掉。我们的预测也就比凭空猜想强点，但也强不了多少。得知这个令人气馁的消息后，我们颇沮丧了一段时间。但这里毕竟是军队，无论管不管用，都要按程序办事，都要服从命令。第二天又来了一批士兵。我们把他们带到障碍训练场地，看着他们面对着墙，抬起原木，几分钟后他们的真正本性就暴露无遗，和之前那些士兵一样明显。我们预测的质量虽低，但这个事实对于我们怎样评估士兵完全没有影响，对于我们在判断和预测士兵能力时的信心也影响甚微。这一切都很令人关注。之前预测失败的主要原因本应动摇我们对士兵进行评判的信心，然而我们的信心并未因此受到影响。这个原因本来也可能使我们适度调低自己的评价，但我们却并未受其影响降低评价。其实我们知道自己的预测只比随意乱猜强一点，一般情况下都是这样，但我们仍然感觉自己所作的每一项预测都是有根据的，而且我们还会按照自己的预测行事。这让我想起了缪勒，莱耶错觉，我们都知道图中的线段是等长的，但一眼看过去仍然觉得它们长度不同。我对这种类推非常感兴趣，所以特意为我们的这种体验创造了一个术语：有效性的错觉。我曾经发现了自己的第一个认知错觉。