图3.2 米基·芒德尔、汉克·阿龙与某假设球手的平均击中率及95%置信区间。回到实验室现在假定我们在实验室做特异功能实验。受试对象是自称没有特异功能的志愿者。与打棒球不同,大多数的实验勿需任何技巧也能偶有“击中”。假设自然击中概率为25%,而我们实际上却看到34%的击中率,高出9个百分点。不是每4个击中一个,而是米基·芒德尔的水平每3个击中一个。我们感到这个成绩不错,于是接着做了许多轮实验,每一轮都是100名新的志愿受试者。假如总是看到能高过自然概率9个百分点,我们就越发相信前次结果并非巧合,而是准确地反映了普通志愿者的能力。如果实验设计得很完善,即受试者根本无法获得取有意无意的种种暗示,那么象这样的一系列实验就比较能够肯定特异功能存在。特异功能实验与此前棒球的例子具有可比性,它们都是对照两种不同条件下的结果:把高水平与低水平相比,测试结果与概率期望值相比。只要继续测量下去,我们就能可靠地评价真实水平究竟如何,评价在不同条件下的结果是否一致。波动性正因为表现不稳定,在评价人的能力的时候就必须进行重复测试,这正是实验科学为什么往往强调重复性。重复性被看作科学评价现象是否存在的最重要条件之一。3 但是,如同棒球运动一样,并不是总能做到重复。尤其对于生命科学,所研究的对象是“开放系统”,可能随着实验条件而发生变化。在这种条件下,想获得成功的重复就十分困难。在特异功能实验中,有人从四项选择中选对了答案,这即有可能是超常感知,也有可能是几率的巧合。若只有这么一次,就说不清楚到底是前者或是后者。同样在棒球运动中,只有那么一次球棒打中了球,就说不清楚到底是水平还是碰巧,唯有通过长期的平均值才能反映棒球水平或者评价超常感知是否存在。但是,一旦我们从看得见摸得着的身体技能,转入只能被感受的精神领域,比如数学能力或超常感知之类的能力,重复突然变得更加困难。心理学因素众所周知,多数科学家倾向于“信赖理论”而不是“信赖数据”。这也即是说除非找到理论上的解释,科学家难于接受“现实” 。超心理学的“真相”之所以令人难以接受,就是因为找不到能够说明现象的合情合理的解释。这并不是说对心灵现象找不到科学理论;这些理论其实有数几十种。问题是理论是否足够充分。信赖理论的科学家可能看不见那些与理论预期存在矛盾的数据。这不是说他们不理解这些数据,而是说他们根本无视这些令人不快的数据。这方面将在第14章另有讨论,有相当多心理学研究也证实了这一点。这个事实的确令人吃惊。这就象让一条狗去看它不感兴趣的东西:“嘿!那儿!看那儿!”“哪儿?啥也没有哇。”“我说的是那儿,看指的地方,不要看我的手。”“还是啥也没有”。信赖理论的再一个后果反映在一句老话里,“非常宣称需要非常证据”。这倒是一句至理名言,但不同的人对“非常”二字有着不同理解。在作出超乎寻常的宣称同时又缺乏理论的领域,象超心理学、冷聚变、顺势疗法,往往需要数量更大的证据。相反在另一些领域,尽管说法也是异乎寻常,只要有较强的理论背景,比如量子力学的非定域关联性,相比之下所需实验证据就不必太多。而这么一来在进行重复实验的时候,比如象重复程度、重复难易、重复要求都依赖于是否存在理论以及理论是否有效。用心理学的语言来说就是取决于理论期望。再一个心理因素是看由谁来评估实验的质量。持不同信念的人在看同一组实验的时候,相信的人会认为实验很成功,而不信的人则认为实验明显不严格。坚定的怀疑者总能找到理由否定那些成功的重复实验,不管具体情况到底怎样,他们的思维定式就是认定有漏洞。再一个心理学因素,无论有什么新的证据,已有信念总是试图作顽强抵抗。比如说,有些科学家声称他们在实验中没有看到心灵现象的证据,然而事后别人分析他们的数据,却发现了显著证据。斯坦福大学的约翰·库弗尔(John E. Coover)教授就是一个例子,他是在20年代首批做ESP卡片实验的研究者之一。他看到30.1%的击中率,而概率期望仅是25%。他认为:由于「结果」是在概率变化的范围内,尽管该事件的发生概率较低,仍不能认为这就算获得了有别于猜中的显著性结果。15过了许多年之后,人们重新分析数据时发现,该结果的巧合发生概率只有1/160。16再有一个例子是詹姆斯·肯尼迪(James Kennedy),他是持怀疑态度的心理学家。他在30年代末重复了莱因的实验。实验中一共有204位受试者,他称结果呈“完全阴性”。实际上,得到思维传感实验结果的巧合发生概率只有1/100,000。17第3 个例子是苏珊·布莱克莫尔(Susan Blackmore),她对特异功能也是持怀疑态度。她在自己的博士论文中一共报告了19项实验,5个具有统计学显著性(结果的自然发生概率小于1/20)。布莱克莫尔口口声声说自己老是获得阴性结果,偶尔得到阳性结果也无法重复,因此才变成了怀疑者。其实单就她博士论文里的19个实验来说,5次结果呈阳性的巧合发生概率是1/500。18再一个例子是雷·海曼教授,他是超心理学长年的批评者。在一份评述文章中,他判定24项实验中有13项不具有统计学显著性。但是如果把这些不具有显著性的数据凑在一起,看作一个大的实验,则总体结果便是统计学显著。19以上例子说明当事人的信念对于判断重复实验是成功还是失败有很大影响。我们得到的经验教训是,一方面当然要质疑特异现象的坚定支持者拿出的老是肯定性的结果,另一方面也要怀疑反对者们得出的老是否定性的结果。统计因素随便举个例子,比方有50位受试者。假定实验结果具有统计学显著性(也即是说现象巧合发生的概率低于1/20)。现在你准备再次动用50位受试者重复此项实验。那么你重做实验并获得成功的概率到底有多大呢?有经验的实验心理学家和专业统计学家在遇到这个问题的时候,他们回答大致是在80-90%之间,也就是说他们认为有80-90%的概率成功地重复。20而真正正确的答案是50%。换句话说,在尽可能重复前一次实验的时候,即使采用受试者的人数一样,你只有一半的机会能取得成功(这是统计测试中所谓“级数”的效果)。看上去很怪,一模一样的实验好象应该得到同样成功的结果。其实并非如此。内中原因就是实验涉及到了人,而两次实验中人的因素不可能完全一样。即使有经验的实验家和统计学家,也很难轻松地看清楚实验结果的统计意义。我们应该很清醒看到,有些怀疑者要求特异功能实验具有高的重复性,其实是缺乏对可重复性的统计学的认识。加利福尼亚大学统计学家杰茜卡·乌兹曾对另外一个统计学的问题作过分析。21 她举遗传工程的实验为例,如果实验的例数不够,就根本得不出高置信度的结果。例如通过遗传工程的途径控制婴儿性别,在100名孩子中得到了70名男孩。即把51%的男孩出生率提高到70%。在此实验中获得70%男孩的自然发生概率只有1/10,000。于是绝大多数科学家都会承认该遗传工程的方法有效。假定有位怀疑者来做重复该实验,但他只用了10名孩子。他惊奇地看到有7位男孩诞生,也是70%的概率。由于实验的样本量越小统计学说服力越低(次数少会降低点平均值的置信度),该事件的巧合概率就成了1/5。为了达到通常所要求的统计学显著,自然发生的概率必须小于1/20,于是怀疑者大声地宣布重复实验失败。往往就是这种错误指责使得一些科学家失去了研究经费。换句话说,如果把实验成功的标准设置为自然发生的概率小于1/20,那么虽然同样获得了70%的男孩,第2次的重复实验就成了失败。实验设计因素有些怀疑者批评说,在加强实验条件控制之后,特异功能便逐步消失了。这相当于说如果执行严密的、高质量的实验,就得不出特异功能存在的证据。这条批评有可能成立,但是经过仔细检查(我们将在下一章深入讨论),实际情况并非如此。哪个实验也不可能没有丝毫设计上的毛病,不过只是影响程度的问题。有一类漏洞可以造成观察到的效应,这类漏洞可以称作“冒着烟的枪”。再一类实验漏洞是“说得通的替代”解释。它们能够解释观察到的现象,就象闻到了弹药味,未必一定要看到枪。这些漏洞并非都能成立。所谓“腌脏试管”的说法便是一条不能成立的指控。因为实验还不够完善,于是就想像可能是“试管不干净”导致了观察的效应。这种批评不能成立,因为它无法被“证伪”。换句话说,我们根本不知道里面到底有什么具体污物,也不知道它们对实验有多大的影响。批评实验方法有问题,该问题必须真能造成观察到的效果,否则无论试管究竟干净或不干净,说它腌脏根本就没有意义。需要多少重复在充分认识到重复的必要性之后,我们也要看到重复实验的难度。假使我们做了一项特异功能实验并且得到了阳性结果。这项实验能够让所有的人相信特异功能存在吗?很大程度这要取决于说的是什么。例如有一群坚定的怀疑者来检验一位自称有悬浮能力的瑜珈师。假如电视直播了这次检验,而且瑜珈师真的浮起来了,怀疑者一定非常地震惊,因为他们从来就不相信会有这种可能性。可能有人转而相信这是真的。当然首先要假定实验操作程序完全排除了作假的可能。然而,由于固有的信念能够左右我们的眼光,可能这些人仍不相信自己的眼睛,最终还是说这根本只是戏法。在早年的特异功能实验中,怀疑者常说“只要超心理学家能够拿出一件‘严格没有漏洞’的实验,就足以说服他们超常感知真实存在”。 22 但他们很快认清自己说错了,任何实验都做不到完美无缺,在单次严格的实验里极可能把问题漏过去。此外,在经验性的学科中,实验结果常常以概率或者是以同自然概率对照的方式表现。所以,即使某次实验结果的自然发生概率只有1/1000,毕竟仍有可能,从定义上看每1000次里就有一次。有时候,如果结果是理论所预期的,或者是由著名科学家报告的,或者该结果偏离常规科学知识不远,有那么一、两个成功的实验便足以说服科学家相信所说现象的真实性。物理学里的欧米茄负粒子就是一个很好的例子。在接近200,000次实验之中只找到两例,人们便认为它已被“发现”。换句话,一个极低重复率的事件──在十万次里才能见到一次──仍然足以使众多科学家相信该粒子是真实的存在。23回到特异功能的话题。如果我们重复前一轮实验,再次获得千分之一概率的事件,又将怎么样呢?很难设想如此低概率的两个事件都是自然巧合。有些科学家可能会因此关注这项工作。要是有3个成功的实验呢?要是有10多个呢?到底需要有多少个?凡牵涉到人的研究,想要每次重复都成功不大可能。既然我们不指望棒球手百发百中,为何要对物理学提出更高的要求呢?把条件放宽一点,则又有可重复程度的问题。这也很麻烦,确定现象的可重复程度同该效应自身的古怪性有关。而该效应的古怪性又取决于同理论有多大偏差。这也等于说要看它偏离我们的期望有多远,这么一来又回到该怎样评价可重复程度以及如何构成可信证据。怀疑论者、英国心理学家马克·汉塞尔(Mark Hansel)说了出来,要有多少证据才能使他相信可能有非常现象。如果结果具有0.01的显著性(即自然巧合发生的概率只有1/100),而该结果的确不是碰巧而是[通过特异功能的] 信息传递,那么如果再做两轮实验将使自然巧合发生的概率从1/100下降到1/1,000,000,这便能确认是超常感知──或者别的什么──在起作用,谁也不会再说这是碰巧。24在汉塞尔看来只要百分之一概率的事件连续重复3次,就可以认定该事件不是巧合。那么他理应知道这种标准已经达到了好几十次,包括不同类型的特异功能实验。这正是何以掌握情况的怀疑者到今天终于承认,在特异功能实验中所得结果无法用巧合来解释。如何确认特异功能实验已经得到重复验证呢?这就引出了整合分析的处理方法──即对分析的分析。可重复性当我们面对超常感知之类精神现象时,由于无法进行大量的重复性实验,很难发现其机理,甚至难于确认现象的真实性。多少年来,这已经成为超心理学发展的唯一最大的障碍。也不光是超常感知碰上这个问题,象心理学、社会学和医学等令人感兴趣的领域也大都如此。人们毫不怀疑意识、创造力这样一些心理现象的“真实性”,但想要用实验室技术捕获这些现象却几乎不可能。心理学家塞摩尔·爱泼斯坦(Seymour Epstein)在美国心理学会的主要刊物《美国心理学家》杂志上撰文说:心理学研究正在快速走向危机,实验程序极不完善,得不出可重复的具有普遍性的结果。加强实验控制的传统办法经常失效,由于人类行为对外来刺激非常敏感,实在无法施加足够的控制……不仅在条件稍加改变时难于重复,甚至完全不改变条件的重复也很困难。4在他之前,心理学家博扎斯(J.D. Bozarth)和罗伯兹(R.R. Roborts)调研了1334篇发表的心理学论文,发现其中仅有8篇,也就是0.7%是在重复他人的研究。5该结果实际上表明没有人愿意重复过去的工作。由于结果的科学性取决于它的可重复性,该情况令人十分困惑,好象心理学家们愿意认可各个结果的真实性,虽说大家都知道心理学效应非常难于重复。怎么会这样呢?怎样知道心理学杂志所发表文章的结果就不是巧合、误操作或者方法漏洞造成的呢?为了说明重复性对认定现象的真实性所具有的重要意义,社会学家哈瑞·柯林斯(Harry Collins)就科学上的可重复性作了深入研究。结果令人惊讶,科学上的成功重复并不多见,而且:首次实验极少成功;甚至几乎就没能做成。敏感的实验者理应清醒地认识到,他或她的具体尝试极可能是错的。这还算不上真正的实验,不过是在前次试验之后的再一次试验。6再一个导致生命科学中出现可重复性“危机”的因素,是大多数的现代学科都比较重视原创性的工作,而不重视对过去工作的重复。甚至某些学术刊物的录用标准就不取“纯”重复性的工作7。结果,偶尔进行重复,实验设计也往往与原始实验有了很大改变,研究者在验证前人的结果之外,总想找机会发现新东西。另外,考虑到精心设计、严格实验所需的时间和经费,完全重复以前的结果常常被看作是资源的浪费。悖论如此一来就形成了悖论:科学强调效应的可重复性,但恰恰那些最吸引人的现象极难重复。我们后面将看到也不光对特异功能研究如此。由于特异现象如此吸引人,对于当前的科学体系又形成了巨大挑战,已经有数以百计的研究者在过去这些年进行了数以千计的重复性实验。前陆军次长诺曼·奥古斯丁(Norman Augustine)在谈到国防装备订单的时候,也曾谈及类似的悖论:检验新装备的时间与该装备的复杂性之间存在某种对应关系,可以认为装备越简单,检验时间就会越短……。[然而]情况并非如此甚至反转了过来……。结果越是高级的装备,测试的周期越短……。相对简单的精确制导炸弹往往要打几千发,而对新式洲际战略导弹则往往是仅靠几发便定乾坤。8换句话,简单、便宜、非关键、易于检验的技术受到不断重复检验,而真正关键的、复杂的、难于检验的技术却少重复。我们都对检验重力和视觉盲点的实验非常熟悉,因为已经重复了无穷次;这些重复使人相信只要这么做,必然得出同样的或类似的结果。正因为具有可重复性,这些现象被认定是真的,可靠的,不言而喻的。若是它们的稳定性象特异功能等效应一样,难于在中学物理或心理学课堂演示,那么其真实性便成了问题。为什么重复很难特异功能不属于容易重复的现象。难于重复可能包含8种因素:(1)现象本身不能重复;(2)文字的规程描述不全或未讲明所需技巧;(3)所研究的对象在随时间变化或者同实验程序相关;(4)研究者可能会无意地影响结果;(5)有时因为社会因素导致实验失败;(6)某些心理学因素使得重复非常困难;(7)重复中的统计运算要比想象的更加复杂;(8)复杂的实验设计影响可重复性。以上各点有助于解释何以特异功能如此难以确认。以下我们逐条仔细分析。不可重复的现象有些现象不是想重复就能重复。自发现象或者比如超新星、流星或球形闪电等罕见现象,就不是主观想重复就能做得到。这类现象因此也难以确认为“真”。甚至象球形闪电这种多有记载的事件,仍然受到相当多的科学家的怀疑,因为现象本身与已知的科学原理相左。球形闪电看似一团高能等离子体,常常呈篮球大小的球形。它具有古怪的不可预测的特性,可以在室内漂浮游动,甚至有时似乎能够自行进退,有时则爆炸造成财产损失。还有大量的其它报告也无从进行科学鉴别,比如不明飞行物飞碟或离奇怪物(如尼斯湖怪兽和巨足野人)或者谷地怪圈。如果强调科学必具可重复性,以上的自发现象就只能被归结为超常现象、幻象或者装神弄鬼。但那些自认为看见了飞碟、鬼、或大脚野人的人们,仍旧会凭自身体验相信自己的眼睛,没见过的人却很难接受。后面我们将看到,那种“我相信是因为我亲眼看到了”的说法是不完备的,与之等效的说法是“如果我相信就会看到它”。有些不可重复现象并不见得罕见,只是难于控制。比如要想预测下几周的气象情况往往是一塌糊涂,因为地球的大气环境非常地复杂。还有一类不可重复的是属于“假象”。在1987年岁末,有批科学家宣布他们发现密封在一百多万年以前琥珀里的原始大气富含氧气。这项报道令人非常感兴趣,因为它可能解释了恐龙的突然灭绝(大型的动物更需要丰富的氧)。然而另一批科学家用了新的琥珀样品试图重复实验,却发现氧气成份正常。因为前面的“富氧结论”未能得到重复验证,人们更加倾向于认为该结果是由于污染、测量误差或者某一条假定不当所造成的假象。特异功能也被某些批评者解释成“假象”。知识不够完全有些实验难于重复,是因为有些实验细节只能意会不能言传。心理学家迈克尔·波兰尼(Michael Polanyi)就用“潜知识”概括这些难于用文字说清楚的信息。9 预感和灵感就是这方面的实例,它们常常是直接通过体验和练习而获得的。用心理学家罗伯特·罗森塔尔和拉尔夫·罗斯诺的话来说:不论是在行为科学或者自然科学领域,一旦不能复制一套设备或某项实验,科学家们就下结论说现象未能重复,尽管这的确也是一种可能。但同样存在可能,就是由于缺乏比较充分的潜知识,这位科学家未能按步就班地操作。10也可以用菜谱为例讲清楚潜知识是什么。无论是谁,如果他不知道菜炒出来会是什么样子,参照菜谱炒菜的时候就发现文字内容是如何不完整。即使亦步亦趋地执行每步操作,做出来的仍可能是连狗都不理的东西,想做出佳肴美味的决窍就是跟随大师学几年。有许多技艺不是理解不理解的问题。比方弹奏乐器、做木工和跳舞,都需要在理解之余经年累月地实践。而实践的经验很难用文字描述,就象凭口头教人骑自行车。如果把实验程序比作菜谱,那么在实验室里也有大师。有人就有“点石成金”的巧手,做什么成什么。别人却老是一塌糊涂。对于心理学行为实验来说,实验程序里的潜知识极为重要,实验者与受试对象之间的人际关系不容忽视。在特异功能问题上,情况更为复杂。例如非眼视觉实验,研究者必须采取严格的双盲程序,切断所有通过正常感官获取信息的途径。实验者必须确保受试对象无法通过作弊掌握相关信息。另外还要控制象受试者及实验者双方的主观偏好给试样带来的问题。实验主持者和他的助手必须仔细地考虑,提出全面的实验方案。随意性及响应性效应如果研究的对象具有随意性,即不断随时间而变化,重复就变得更为困难。甚至有时现象可能随着实验条件而变化。在行为科学和社会科学中,这是非常棘手的难题,因为无法保证下一次测试的时候检验对象没有发生变化。其实当我们面对生物组织的时候,就已经无法指望其非常稳定。针对行为上的波动问题,研究者们推出了多种实验设计方案。医学实验的重复就相当困难,药效和病情都在随时间而变化,多个因素混杂在一起。试验用药是否控制了病情或治愈了病症呢?要回答这种问题就必须对实验组与对照组进行比较,尔后才能得出判断。即使确保采用了双盲操作,即实验者与受试者都不知道实验的安排,也难于完全排除随意性及响应性等因素。此外还有一些现象存在着时间效应,有些现象不符合统计分布,只是表明有发生的可能及趋势。实验者效应在经典著作《人的研究之缺陷》一书中,心理学家特奥多· 巴伯(Theodore X.Barber)提出了导致行为研究出差错的10种可能。11其中包括“实验者的范式效应”,即实验者的既有知识框架会影响他对实验及对结果的表达;还有“实验者的人格因素”,即实验者的年龄、性别、对人的态度均会影响受试者的心态。第3项缺陷是“实验者非有意的期望效应”,实验者的预先期望会对实验结果造成影响。实验者的期望和事先的信念影响到实验如何做、数据如何表达、如何对待他人的工作。在第14章中我们将重点讨论这方面内容,这有助于期解释为什么对特异功能实验有这么多批评,为什么特异功能证据不被承认。社会因素科学是社会性的活动,重复性也必然牵涉到一些社会因素。任何一位科学家若是作出意外宣称都应当激发别人去做重复和检验的兴趣。否则,这位科学家就成了耍单帮的人。耍单帮的人怎么样就怎么样,谁也不去理睬他。1995年有一期《新闻周刊》的封面文章在谈论超常现象的时候就是指责研究者独来独往。后面还将对这则内容作较详细的分析,以说明媒体是怎样曲解了特异功能研究。这里我们仅点出那篇文章的一个观点:独立的研究者无法重复普林斯顿大学罗伯特·杰恩教授实验室的精神致动实验。文章的原话是:“其它实验室,虽然也用杰恩的设备,却无法重复他的结果。”12假若真是这样,这条批评便十分严厉,因为个体研究者的结果可能是失误乃至作伪。但这句话却纯是想像。在第8章中,我们将介绍世界上有至少70多位研究者在杰恩之前便重复了这方面的工作。杰恩绝对不是独行客,但这种舆论往往对公众有极大影响。为了把独行客从科学共同体中划分出来,怀疑者发明了“伪科学”及“病态科学”之类标签。比如《科学》、《自然》这样一些重要科学杂志就采用这类词汇指责特异功能研究。如此的标签意味着不可靠、不可信,要么马马虎虎,要么胡编乱造。“伪科学”之说是极端怀疑者采用的笔墨战术,可以缓解认知失谐所带来的精神痛苦(否则他们将陷入思维怪圈:证据好象没问题,但绝不应该是真的,但是又挑不出毛病,但是又……)。很遗憾,不少科学家便是由于害怕被人贴上如此标签而对特异功能敬而远之。他们担心受到伪科学的污染,或者因为同事知道自己有这方面的兴趣而影响声誉。杰出的物理学家约翰·惠勒(John Wheeler)就是一个很好的例子。惠勒对于量子力学里的观察者及其观察对象这个难题十分感兴趣。他曾充满感情地说:“说到底根本就不存在什么客观的可以隔着一层玻璃来看的‘宇宙中心机制’。宇宙说起来更象魔法而非机械物。”13这么听起来惠勒应当赞同特异功能研究,它毕竟在研究主观与客观之间的古怪相互作用。然而,在美国科学促进会组织的一次“物理世界中的意识作用”专题研讨会上,惠勒作完报告之后,觉得自己不得不再站出来讲一通“要从科学殿堂里把伪科学驱逐出去”:坦率地说,当知道所谓的超感官知觉……也将在本次研讨会上报告之后──实在是知道得太晚了,作者真想退出研讨会。对于那些只想在真实的科学领域讨论真实观察中真实细节的人来说,有谁乐意与巧装打扮的伪科学为伍呢14?同惠勒一样,没有哪位科学家愿意与“伪科学”沾边。除开招惹主流科学界的恐惧和厌恶,在加盖着“伪科学”印章的领域从事研究的那些人可能发现课题经费突然没有了,杂志拒绝发表他们的研究结果,甚至连学术职位也撤消了。别说请其他科学家重复检验,甚至哪怕仅仅关注有关进展都很困难。康纳尔大学的托马斯·高尔德(Thomas Gold)认为在特异功能实验里存在某种“羊群效应”。科学家们(原则上也包括其他人)常常以某种思路或技术为依托凑在一起形成群体。形成科学家集团的原因其实与形成羊群的道理相近,即保护群内个体。脱离群体去干自己的事情要冒很大风险,要知道离开群体研究科学的可能性愈来愈小。无庸置疑,从事特异功能研究的科学家都是敢于承担风险的人,但学术界很快让他们明白“我们不乐意善待外人”。第4章 整合分析「整合分析」将为科学……处理数据带来革命。它将结束诸多争论。托马斯·查尔默斯(Thomas Charlmers)独立的重复实验是获取科学证据的关键,我们需要找到某种办法以衡量达到了多高的重复程度。这项已被广泛接受的技术叫作整合分析(meta-analysis)──对分析本身的分析。从概念上说,整合分析非常简单。举棒球为例,米基·芒德尔的终身击球率是30%,我们认为他是优秀棒球手。我们的信心不是取决于他的某场比赛,而是他在几千次击球过程中表现的水平。与此同理,某人在单次特异功能实验里表现突出,可能只让我们觉得是有趣的巧合。若是这个人在数以千计的测试中屡屡成功,就有更大的说服力。再比如,我们想判断公牛队的迈克·乔丹或者休斯顿火箭队的克莱德·德克斯勒是否算优秀篮球投手。图4.1是这二人自1995年11月3日至96年4月18日的每场得分情况。哪位球手更好呢?我们还派出乔·西克斯帕观摩比赛并记录了两人的得分。假如乔只参加了德克斯勒得分高过乔丹的那7场球(比如95年12月2号德克斯勒得41分而乔丹得37分),他会认为德克斯勒比乔丹更棒。图4.1迈克尔·乔丹和克莱德·德克斯勒自95年11月3日至96年4月18日赛场上的得分我们怀疑乔的结论,只要多看几场球,就能看到乔丹几乎总比德克斯勒的得分要高。如果整体考虑此间所有场次的球,乔丹的平均得分明显高于德克斯勒。不论是评价篮球或者评价特异功能,大量的重复性观察无疑能够提高判断的准确程度。或许我们感兴趣的不是某位球员而是整支球队。整队的平均得分可以使我们判断球队的水平。特异功能实验也是一样,我们往往观察许多人的团体表现,每个人都要参加许多轮的实验测试。再把这些结果叠加起来,便看到不同群体在能力上的差别。科学只关心具有普遍性和规律性的事件,而不是偶发事件。因为科学的目的是在于正确理解和描述现象,从而能够预测未来。从字面上看,一次性或纯偶然的事件无法预测。整合分析可以使我们在更高水平上提出问题,比如整个棒球赛季的表现。我们所要看的不是单个球员,也不是某支球队,而是各支球队各组成员的成绩。我们感兴趣的是整体的棒球水平,而不是哪支球队或者哪位球员。就特异功能实验来说,我们也不是看单个人或单项实验里某组人的表现,而是综合许多实验之后看人们的普遍表现。通过“整合”获得的答案能使我们获得对整体表现的更好把握,避免拘泥于单个人或者某组人的细节特征。从而数据越多结果就越可靠。研究评论为了衡量不同实验之间的重复性,首先需要采用相同的评价标准。研究评论可以分为四种类型。类型1,简要指出并讨论某个领域的进展情况,主要侧重于几个典型实验。象《科学》这类科普杂志经常采用这种方法。那些批评特异功能的文章常常也采用这种办法,因为很容易挑选出一、两篇东西展开批评。类型2,是用一些研究结果反映或者说明某个新理论,或者为了解释某现象而提出新的理论构想。这种评论同样也不全面,只限于说明一般问题。类型3,评论内容是各个研究领域中经过整理和综合之后的知识。这种描述性的评论仍旧不够全面,因为每个学科领域所研究的问题都非常驳杂,难以面面俱到。说到底仍旧是通过几个典型的“最好的”实验阐明综述观点。类型4,累积评论或者说整合分析,这是一种能够全面分析实验数据的技术。它是从每项实验的各种观察中挖掘其中具有普遍意义的内容。1累积叠加整合分析被描述为“一种统计分析方法,受分析的对象是独立的研究结果,而非各位受试者的反应”。 2 在单项实验中,所分析的原始数据是受试者的个体反应。而在整合分析中,各个原始数据点是每一单项实验之结果。整合分析的基本原理早在30年代就提了出来,近几十年又一直有所修改和完善。到了今天整合分析突然被应用于各个领域,象行为科学、社会科学和医学等等学科全都置身同条船上:需要一项可靠的技术手段判别实验结果是否具有可重复性。因为整合分析是把一组近似实验的结果进行综合,因此需要把实验的原始数据作重新整理。有时候要把原文报告的结果改写成可以统一处理的统计数字。接下来再把实验程序按照实验控制条件、发表论文的刊物与年份、受试者人数等因素进行分类和量化。然后分析这些结果,看看其间是否存在规律性。前面提到,怀疑者一直说实验控制越严格,特异功能效应便越微弱,由此得出特异功能都是实验失误的看法。整合分析就能分析实验质量与实验结果之间存在的关系,进而检验该说法。准确性整合分析能就一组实验作出远比传统的描述性方法更为准确的评价。在探讨整合分析是否比单项分析更准确的时候,心理学家库柏(Cooper)和罗森塔尔发现评议者如果采用传统的描述性的方法可能得出与整合分析相反的结论。4 因为在阅读文献综述的时候,就每项实验研究往往只有一、两段文字,读过之后头脑里只剩下互不相干的细节,难以形成有意义观点。如果是采用整合分析,却能得出定量的唯一的结果。有些整合分析的批评者(哪里都有批评者)争辩说这种累积叠加技术可能受主观影响或者过于简化。5对此的回应是,整合分析恰恰需要讲清楚分析过程的各项细节,从而保证独立分析者能够验证所得结果。另外,由于我们把所有的实验合在一处,而不是光选“好”的那部分,这正可以防止主观倾向方面的问题。苹果与橘子批评者指责整合分析把不同的实验拉在一起,就象是把苹果与橘子混在一起。6 这种把不同实验者、不同实验方案以及不同试者的各种实验叠加一起的办法能成立吗?答案是肯定的,我们找的是它们的共性,两者都是水果。在把多项特异功能实验综合起来的时候,实验之间存在的差异就象苹果、橘子各不相同,可共性部分都是特异功能。对于整合分析的另一条批评,是说有些作者倾向于发表具有显著性的结果,而不显著的结果却被抛之一边,此即所谓的“文件柜”效应。7 不成功的实验被遗忘在研究者资料柜里,不被人们谈及。如果隐藏未发表的实验数目相当大,确实可能导致整体效应的夸大。如果研究者只发表成功的实验,我们当然得出结论全部实验都很成功。而实际情况却是可能如此也不一定真就如此。我们将在后面深入探讨“文件柜”问题,包括看看它对整合分析结果有多大影响。服用阿司匹林图4.2是就阿司匹林降低瘁发心脏病的25项实验所做整合分析。这个分析结果率先发表在1988年《英国医学杂志》上面。新闻媒体把这项结果描写为医学上的突破,1990年有人在《科学》杂志上撰文,以此为例解释如何作整合分析。8图4.2 检验阿司匹林能否降低心脏病瘁发的25项实验。单独来看在25项实验之中仅有5项的结果具有显著性。整体合起来看──如最右边的点所示──阿斯匹林确有疗效。图中的各点平均值显示了每一项实验的结果,是以药物治疗组的效果比上非治疗组的效果,置信区间为99%。图中1.0这个高度表示治疗组未能降低心脏病的发病率,小于1.0意味着治疗组好过对照组(发病率有所降低)。表面上看,25次实验中仅有5次实验的结果能有99%的可信度断定并非巧合事件,这就是说大多数的实验(80%)结果都是阴性,它们的置信区间包含着1.0。假使这位评论者原本就对阿司匹林的疗效持怀疑态度,这么一项项地检查单个实验,最后他可能就会不屑一顾,把结果弃之一边,认为根本不能确认疗效。可若是把全部实验结果综合起来,则整体结果(图中最右端)明显位于1.0的概率线之上,大致为0.75,并且误差范围很小,从而排除了巧合。由此可见,尽管单项实验来看疗效并不明显,服用阿司匹林确象人们说的能够产生显著差异。换句话说,正是在综合全部实验之后才能断定阿司匹林确有疗效。整合分析对于特异功能实验的作用同样如此。单独地看,虽然某些特异功能实验获得了成功的结果,但该结果颇难重复。这种不稳定性──加上缺乏能够预言特异功能的理论──惹得怀疑者猛烈攻击了一百多年。但是,只要把所有实验合起来看,毫无疑问特异功能确实是存在的。硬科学有多过硬从事物理学、化学和其它“硬科学”研究的人往往以为自己的工作比心理学之类的软科学可靠得多。至少当物理学家测量一根铜棒重量的时候,结果稳定,非常精确。无论什么人在什么地方,只要用同样的设备,都将得出同样的测量结果。硬科学的测量误差往往较小,所以才使人相信结果的可靠性。请记住,测量的稳定性有助于得出公认的结果。相反,在心理学家测量人的行为或者当社会学家评估社会的某个方面的时候,不论采用问卷、调查或者心身测量等等手段,都需要借助统计学处理及分析数据。原因在于生命系统里的随机变化量或者说“噪声”的水平较高。因此,可以说测量的准确性及测量精度上的差异构成了硬科学与软科学的主要界线。但是这两者之间的差异肯定被夸大了。芝加哥大学心理学家拉瑞·海吉斯(Larry Hedges)运用整合分析得出惊人的结论:有些软科学实验具有与硬科学同样高的可重复性。用他的原话来说:人们常常以为社会学和行为科学的结果不象物理科学研究具有很高的可重复性……。[当把物理科学与社会科学的结果]进行比较之后发现,物理实验并不一定就比社会学或行为科学实验具有更高的一致性。数据显示,若按照严格的统计学标准连物理学实验也不一定具有稳定性。9海吉斯的“稳定性”是指重复实验的时候,实验结果的可重复程度。他研究的是重复实验中可能获得多大的一致性。虽说对此得不出精确回答,他认为有个变通的方法就是把行为科学的测量结果与硬科学的结果进行比较。海吉斯特别检验了以实验水平高、理论完善而著称的粒子物理学中的实验情况。他总结时说:社会科学实验的稳定性未必就比物理科学实验的差。其实在社会科学与物理科学之间存在着许多相似之处。站在统计学的角度看,实验结果并非总是一致。除非有意地忽略一些实验,在这两个领域都有约45%的结果差异特别大。10这是一个惊人的说法,在看上去最严格、最成功、也最过硬的粒子物理学领域,实验的可重复程度其实与软科学和多变的行为科学相差不多。为了说明这一点,我们来看看美国物理学会的粒子数据课题组(PDG)的一篇文章。PDG是一个国际性的、由多所大学的专家共同组成的小组,其任务是评判基本粒子的本征特性──诸如质量和寿命──的实验结果。PDG负责依据已发表的实验工作,选定粒子的特性参数。11这里着重要说的是,这些分析报告采纳了一些数据,却删去了另一些数据。删除那些数据主要因为“结果中包含着不应有的假定”,或者“该结果与其它更加可靠的测量结果明显不一致”。 12 换句话,就是把这些“异常”数据看作失误而予以删除。随着不断添加新的数据,每项指标参数变得越来越精确。然而,PDG写道:有时假会看到非常不可思议的波动;这往往是因为引入了非常的新数据或者删去了旧数据。如果发觉新的数据所含的系统误差更小,便将旧的删去……若是把参数测量的全部历史一一描画出来,整体说来总是在单调地逼近某个中心值,同时又是在前一次测量结果的误差范围之内。13说起单调,先要把异常点删去。正如海吉斯所发现的,需要删除45%的数据才能得出如此结果。如果我们把海吉斯的结果同某些特异功能实验的结果比较一下,将会怎么样呢?是否差不多呢?我们在后面几章进行了这方面比较,而且只能得出结论,如果采取与常规学科一致的标准,这些实验的结果确实与最过硬的学科具有同样的稳定性。借用柯勒瑞奇(Coleridge)的诗句:一觉睡下将如何?作个美梦又如何?黄梁一梦登天堂,采下一大捧鲜花,梦醒手里竟有花,问君却该作何想?哎哟嗬,那可该怎么想?14真要那样,我们就应该想想到底是不是梦了。或许几百年来成千上万的奇闻轶事真的表明特异功能存在。或许其中真有富含科学价值的东西。讲到这儿我们已经多少认识到重复实验和整合分析的必要性,接下来我们开始本书的第二部分:证据。主题二: 证据本书的主题一谈论的是动机,即为何要研究特异功能。我们看到最浅显的原因,就是人们经常报告一些无法兼容于现代科学体系里的奇特体验。既然从古至今有如此众多的记载,其间必定存在某种与人性相关的东西。这些体验到底是怎么回事,我们又该当如何认识呢?为了回答这些问题,我们从一般的“超常现象”之中,选取含有信息及能量交换的那一部分——也就是俗称的“特异功能”现象。虽说贯穿人类历史一直都有这方面的民间故事和奇闻轶事,要想科学地确认特异功能存在,仍必须依靠可以独立地重复检验的受控实验。在认识到重复的目的、本质、如何评判重复的实验结果之后,接着就要看是否能吃上这顿最后的晚餐了。本书在这一主题讨论确认特异功能存在的证据。我们将分析四类常见的特异功能实验。还将看一看新近提出来的两类实验:“场意识”效应以及赌场下注与彩票抽奖中的特异功能效应。最后我们还将探讨特异功能的开发应用问题。我们首先来看报告人数最多的一类特异体验——思维传感。第5章: 思维传感还没拿起电话,我就知道是你。星期一,我毫无来由地想起大学的一位同学。我们已经好几年没有联系,也不知道她现在哪里。接着我出乎意料地收到她的来信。我的电话打过去,才知道在星期一,就在我想起她的那会儿,她恰好在翻看大学纪念册并想到与我联系。当我与丈夫一起行好莱坞的时候,电影《所罗门王的宝藏》片中的内容突然历历显现在我的眼前,我知道他在想这个影片。我想也没想就转身对他说,“我也同样看到了《所罗门王的宝藏》”。他大吃一惊。“你怎么知道我在想什么?”1两人之间这种直接的思维信息沟通有很丰富的历史记载,过去人们称之为“他心通”,也叫“思维传感”。英文所采用的词汇Telepathy——“感知远处”,是英国学者弗里德里克·迈耶斯(Frederic W.H. Myers)(伦敦的心灵研究会创建人之一)于1882年发明。2在几乎所有例子中,之所以谈到这类体验实在是因为它们对当事人太特别了。我们经常互相打电话、写信,有时真好象知道对方在想什么。当这种感觉十分强烈,而同时我们又确信没有来自五官的信息,所感又恰好得到证实,便会认为那是思维传感。或许只是基于经验的推理,或许只是错会了的巧合?都有可能。有很多思维传感的例子其实是由一些心理因素造成的,这些因素包括选择性的记忆、主观愿望、记忆失真以及下意识捕获的信息。不论这些故事与案例听上去多么可信、多么有趣、多么感人,我们清楚地看到建立在当事人主诉和记忆之上的证词极不准确,往往存在着多种常规解释。要想科学地判断是否存在思维传感,不能指望这些故事。不少描述心灵现象的作品连篇累椟地列举“资料完整”的案例,然后请读者自己下结论特异功能是否存在。但即使我们看了成千上万的例子,最多也只能得出表面性的感受,认为特异功能或许存在,可是没有很大把握。要想取得科学证据必须在严格的受控条件下重复某些现象。只有实施严格的实验方案,才能排除信念、动机、记忆以及感官等因素的影响,确认人与人之间有无信息交流的可能。此后才能推断在众多的案例之中确实存在着思维传感。关于思维控制之说