就是说,第五个球是白球的机会是5/6。我们已经挑中都是白球的口袋的机会,是从这个口袋挑出4 个白球的方法数除以挑出4 个白球的方法的总数所得的比值。我们已经看到前一个数是70;后一个数是l+5+15+35+70,即126。所以机会是70/126,即5/9。这两种结果都和拉普拉斯的公式相符合。让我们再举一个数字的例:假定有10 个球,已经拿出其中5 个并且发现都是白球。那么P10即我们挑中只有白球的口袋的机会是多少?下一个球是白球的机会又是多少?..Pr 可能有的方法数; 在pr 的条件下,挑中另一个白球的方法数,挑中一个黑球的方法数p5 1 ; 在p5 的条件下,0 5p6 6 ; 在p6 的条件下,1 4p7 21 ; 在p7 的条件下,2 3p8 56 ; 在p8 的条件下,3 2p9 126 ; 在p9 的条件下,4 1p10 252 ; 在p10 的条件下,5 0这样P10 的机会就是252/(l+6+21 +56+ 126+252),即252/462,亦即6/11。下一个球是白球的方法有6+21×2+56×3+126×4+252×5,即1980 个,而下一个球是黑球的方法有5+4×6+3×21+2×56+126,即330 个。所以白球所占的优势是1980 比330 即6 比1,因而挑出另一个白球的机会是6/7。这又和拉普拉斯的公式相符合。现在让我们看一看伯诺利的大数定律。我们可以具体说明如下:假定我们抛掷n 次钱币,每出一次正面写上1,每出一次反面写上2,这样就形成许多n 位数。我们将假定每个可能的序列只出现一次。这样如果n=2,我们就有4 个数,11,12,21,22;如果n=3,我们就有8 个数,111,112,121,122,211,212,221,222;如果n=4,我们就有16 个数,1111,1112,1121,1122,1211,1212,1221,1222,2111,2112,2122,2211,2212,2221,..2222;以此类推。就上面表中最后一项来看,我们看出四位都是1 的有1 个数,三位是1 和一位是2 的有4 个数,两位是1 和两位是2 的有6 个数,一位是1 和三位是2 的有4 个数,四位都是2的有1 个数。1,4,6,4,1 这些数是(a+b)4中的系数。不难证明,与n 位数相对应的数是(a+b)n中的系数。伯诺利定理的全部意义在于如果n 大,那么接近中间的系数的和就几乎等于所有系数的和(后者等于2n)。这样如果我们在大量抛掷当中把所有可能的正反面系列都算进来,其中绝大多数情况下两者都几乎相等;另外随着抛掷次数的增加,大多数情况数和接近程度也随着无限增加。尽管伯诺利定理比起上面包含对于相等概然性进行抉择的说法更为一般和确切,就我们现在的“概率”的定义来说,它却可以按照类似上面的方式来加以解释。这是一件事实,即如果我们写出全部由不是1 就是2 组成的100位数,那么大约有四分之一包含49 位或50 位或51 位是1 的数,有接近半数包含48 位或49 位或50 位或51 位或52 位是1 的数,半数以上包含47 到51位是1 的数,大约四分之三包含46 到54 位是1 的数。随着位数的增加,1和2 几乎平均出现的数目占压倒优势的实例也就随着增加。为什么这件纯属逻辑的事实被我们当成适当的理由,使我们在抛掷许多次钱币时期待着事实上得到的几乎数目相等的正反面,那就是一个不同的问题,其中除了涉及逻辑定律之外还涉及到自然律。我现在提到它的目的只在于强调我现在不讨论这个问题。我想强讽在上面的解释中没有谈到可能性,也没有谈到实际上涉及到无知的问题。这里只是计算一下B 类的分子数目并确定它们当中同时属于A 类的比例数。有时人们认为我们需要一个等概率公理——例如说出正面和反面的概率相等。如果这指它们事实上出现的频率接近相等,那么这个假定对于数学的概率论就不是必要的,因为后者本身并不研究实际的事件。现在让我们看一下有限频率的定义对于那些看来也许出了它的范围的一些概然性实例的可能的应用。首先:这个定义在什么条件下可以扩展到无限集合?因为我们已经把概率定义为一个分数,并且因为分数在分子和分母为无限时无意义,所以只有在有某种趋近一个极限的方法时才能扩展这个定义的范围。这就要求我们要对之计算a 为b 的概率的那些a 形成一个系列,事实是一个级数,以便把它们表示为a1,a2,a3,..an,..,这里对于每个有限整数n 来说都有一个与之对应的an,反过来说也是一样。这时我们就可以用“pn”表示到an为止所有a 属于b 的比例数。如果在n 增加时,pn趋近一个极限,我们就可以把这个极限定义为一个a 将成为一个b 的概率①。可是我们还必须把pn。的值围绕极限摆动的情况与pn只从一方面趋近极限的情况区别开来。如果我们反复抛掷一块钱币,出正面的次数有时会超过总数的一半,有时又少于总数的一半;这样pn。就围绕1/2 这个极限来摆动。但是如果我们估计到n 为止的质数的比例数,这就是只从一方面趋近极限:对于任何有限的n 来说,pn是一个确定的正分数,这个正分数在n 的值大的情况下接近于1/log n。现在当n 无限增加时V/log n 趋近于零。这样质数的比例数趋近于零,但是我们不能说“任何整数都不是质数”;我们可以说一个整数为质数的机会无限小,但却不是零。显然一个整数为质数的机会比它比方说既是奇数又是偶数的机会要大,尽管这种机会小于任何不管怎样小的有限分数。我认为当一个a 为一个b 的机会严格说等于零时,我们就可以推论出“任何a 都不是一个b”,但是当这种机会无限小时,我们却不能做出这种推论。我们可以看到除非我们对于自然的进程做出某种假定,我们就不能在处理一个用经验的方法得到定义的系列时使用趋近极限的方法。例如,如果我们反复抛掷一块钱币,在进行过程中我们发现出正面的数不断趋近1/2 这个① 这个极限要依靠a 的顺序,因此它是在把a 当作系列而不是当作类的情况下从属于a 的。极限,这并不能使我们假定这就是在我们能使我们的系列变为无限系列时的真正极限。举例说,可能有这种情况:如果n 是抛掷的次数,出正面的比例数严格说并不接近1/2 而是接近11 n+ sin2 ,24 N其中N 是一个大数,大大超过我们在具体实验中所能得出的任何数。在这种情况下,我们的归纳会在我们正在认为它们已经巩固建立起来的时候就开始被经验界的证据所否定。或者可能发生这样的情况:对于任何经验界的系列来说,经过一段时间,这个系列就变成毫无规律,在任何意义上说也不再趋近一个极限。那么,如果上面所说的扩展到无限系列的范围可以用在经验界的系列身上的话,我们就将要祈求某种归纳的原理。没有这个公理,我们就没有理由期待这样一个系列的后面部分继续为前面部分所遵守的定律提供例证。【m TXT BBS搜刮精品书籍,欢迎您来推荐好书】在通常的经验界的概然性的判断中,例如天气预报中所包含的概然性的判断,有着结合在一起需要分开的不同因素。最简单的假设——为了举例说明已经把它过分简单化了——就是观察到某种预兆,而在这种预兆之后就以前观察过的比方说百分之九十的实例来说都下雨。在这种情况下,如果归纳论证和演绎论证同样确实可靠,我们就会说“下雨有百分之九十的概率”。这就是说,现在这个时刻属于某一个类(由所说的出现预兆的时刻组成),其中百分之九十是下雨以前的时刻。这是我们刚刚研究过的数学意义上的概率。但是使我们不能确定是否将要下雨的因素并不只是这一点。我们对于这种推论的正确性也还不能肯定;我们对于将来十次中有九次在出现所说的预兆之后下雨这一点也感到没有把,握。这种怀疑可能有两种,一种是科学的,另一种是哲学的。我们可能一方面保留对于一般科学程序的充分信赖,一方面感到在这种情况下数据太少不能保证进行一次归纳,或者感到没有足够仔细地消掉其它也可以出现和可能作为更为常见的雨的预兆的一些条件。或者气象记录也可能不大可靠:记录可能让雨淋坏,或者让一个不久就被鉴定精神失常的人弄得无法辨认。这类怀疑是在科学程序范围之内的事情,但是也存在休漠提出的那些怀疑:归纳方法是正确的吗?或者它只是一种使我们感到舒适的习惯?这些理由当中任何一个或全部都可能使我们对于由于我们的证据才使得我们相信的百分之九十的下雨机会感到没有把握。我们在这类实例中遇到了等级不同的概率。第一级是:天大概会下雨。第二级是:我看到的预兆是大概会下雨的信号。第三级是:大概某些种类的事件使得某些将来的事件具有概然性。在这三个等级中,第一级是常识所说的概然性,第二级是科学中的概然性,第三级是哲学上的概然性。在第一阶段中,我们已经观察到迄今为止十次中有九次B 跟随A 而发生;所以在过去A 使得B 具有有限频率意义下的概然性。在这个阶段我们不加思索就假定我们可以预料将来也会发生同样的事情。在第二阶段中,即使不怀疑从过去推论出将来的一般可能性, 360 我们也认识到这类推论应该受到某些保障,比方说穆勒的四种方法。我们还认识到即使按照最好的规则行事,归纳也不是总能证实的。但是我认为我们的方法仍然可以纳入有限频率说的范围之内。我们在过去已经做过一些归纳,有些做得比较仔细,有些则较差。在那些按照某种方法做出的归纳当中,到现在为止已经有一部分p 得到了证实;所以到现在为止这种方法已经对于它所许可的那些归纳赋予概率p。科学方法大部分是由一些法则组成,通过这些法则我们可以使p(由过去归纳的过去结果所证明的)更加接近于1。所有这些仍然未出有限频率的范围,但是现在归纳却是我们估量频率的单独项目。这就是说,我们有A 和B 两个类,其中A 由按照某些规则完成的归纳组成,B 由为迄今为止的经验所证实的归纳组成。如果n 是A 的分子数,m 是A和B 的共同分子数,那么m/n 就是按照上面的规则进行的一次归纳将具有的产生迄今所得到的那些在可以证实的情况下为真的结果的机会。在这样说的时候,我们并没有使用归纳法;我们只是描述自然进程的一个已经被观察到的特点。可是我们已经发现任何关于科学程序所提出的规则的优越性(直到现在为止)的标准,并且我们已经发现这个标准就在有限频率说的范围之内。唯一新鲜的地方就是我们现在所用的单位是归纳,而不是单独的事件。我们把归纳当作发生的事件,而且只有那些实际发生的事件才可以当作A 类的分子。但是一旦我们主张一个迄今已被证实的归纳将要、或者大概将要被证实,或者主张迄今已经提供大量迄今已被证实的归纳的那些程序法则将来也很可能提供大量已被证实的归纳,我们就越过了有限频率说的范围,因为我们是在处理数目未知的类。数学的概率论,和一切纯粹数学一样,尽管给我们知识,却不能(至少就一种重要的意义来说)给我们任何新的知识;另一方面,归纳则确能给我们某种新的东西,唯一的怀疑是它所给的东西是否是知识。到现在我还不想批判地去考察归纳;我只想说清楚归纳不能纳入有限频率说的范围,即使通过把一个特殊归纳看成一类归纳中的一个这种办法也做不到这一点,因为检验过的归纳只能为一个迄今尚未检验过的归纳提供有利的归纳证据。那么,如果我们说那种归纳正确有效的原理具有“概然性”,我们所说的“概然性”这个词的意思就不同于有限频率说中所说的“概然性”的意思;我认为我们所说的“概然性”的意思一定就是我们说过的“可信的程度”。我总认为如果我们假定了归纳,或者任何我们认为可以代替归纳的公设,那么所有精确的和可以度量的概率就都可以解释为有限频率。举例说,假如我说“很可能有过佐罗亚斯特这个人”。为了证实这个陈述,我将首先考虑在他这个事例上大家公认的证据,然后找出已知真实或虚妄的类似的证据。这种概然性所依靠的类不是存在的或不存在的先知的类,因为把不存在的先知包括在内就使得这个类变得内容有些含糊不清;这种概然性也不能只依靠存在的先知这一类,因为有关宏旨的问题乃是佐罗亚斯特是否属于这一类。我们将要采取的步骤如下:就佐罗亚斯特这个事例来说,有属于某一类A 的证据;在所有属于这一类并且可以检验的证据当中,我们发现一部分P是真实的;因此我们通过归纳推论出有一种概然性P 有利于佐罗亚斯特事例中的相似证据。这样频率加上归纳就包括了概然性的这种用法。或者假定我们象巴特勒主教那样,说“宇宙大概是造物主精心策划的结果”。这里我们是从类似錶蕴涵錶匠这一类的次要论证来开始的。中国有一种大理石,这种大理石有时碰巧能产生类似艺术家绘成的图画;我就曾经见过最令人感到惊奇的一些实例。但是这种情况太罕见了,所以在我们看见一张图画的时候我们有理由以很大的概然性(在假定归纳的情况下)推论出一个艺术家来。那位当主教的逻辑学家所能做的,象他用他的书名来强调的那样,只是证明这种类椎;我们认为这是可以怀疑的,但却不能纳入数学的概率论中去。因此,到现在为止,看来可疑性和数学的概率——后者是就有限频率的意思来讲的——是自然律和逻辑法则之外唯一需要的概念。可是这个结论只是暂时性的。在我们还没有考察某些另外提出来的“概然性”的定义之前,我们是不能说出什么确定的意见的。第四章米西斯—莱新巴哈的频率说两个当时住在君士坦丁的德国教授所写的两本重要的书以不同于上章所用的方式提出了关于概率的频率解释。①..莱新巴哈的著作是米西斯著作的发展,在各个方面都是同一理论的更好的说明。因此我将只讨论莱新巴哈的著作。莱新巴哈在列举出概率计算的公理之后,他就提出一种看来是由于见到统计上的相互关连而想出的解释。他假定两个级数(X1,X2,..xn,..),..(y1,y2,..yn, ..),以及O 和P 两个类。有些x 或者所有x 属于O类;莱新巴哈感到兴趣的问题是:与x 相对应的y 属于P 类的频率是多少?举例来说,假定你在研究一位丈夫是否因为他的太太吩叨不休而想自杀的问题。就这个事例来说,X 都是妻子,y 都是丈夫,O 类由吩叨不休的人组成,P 类由自杀的人组成。然后已知一个妻子属于O 类,我们的问题是:她的丈夫属于P 类的频率是多少?让我们看一看两个系列中各自由前n 项组成的部分。假定在前n 个X 当中,有a 项属于O 类,并且假定这些当中有b 项使得与x 相对应的y 属于P类。(与x 相对应的y 和x 具有相同的下标。)这样我们说在从x1 到xn 的整个部分中O 和P 的“相对频率”是b/a。[如果所有X 都属于O 类,那么a=n,而相对频率就是b/n ]我们用“Hn(O,P)”来表示这种相对频率。我们现在进一步给“P 在已知O 的条件下的概率”下定义,这个概率我们用“W(O,P)”来表示。这个定义是:W(O,P)是当n 无限增大时Hn(O,P)的极限。我们使用一点数理逻辑就可以使这个定义大大简化。首先,两个系列是不必要的。因为我们假定两个系列都是级数,因而在它们的项目之间存在着某种构成——对应关系的东西。如果这叫作S,那么说某一个y 属于一个P类就等于说与它对应的X 属于那个由对于P 的分子当中某一个分子具有S 关系的项目所组成的类。例如,设S 是妻子对于丈夫的关系;如果y 是一个结过婚的人,并且X 是他的妻子,那么y 是一个政府官员这句话在并且只有在X 是一个政府官员的妻子的情况下才为真。其次,承认不是所有的X 都属于O 类这种情况并没有什么好处。这个定义只有在无限数目的X 属于O 类的情况下才是适当的;在这种情况下,那些属于O 类的X 形成一个级数,而我们就可以把其它剩下的部分忘记。这样如果我们换用下面的说法,我们就把菜新巴哈的定义中最重要的部分保留下来:设Q 为一个级数,α是某个类,就α当中重要的实例来说,在Q 这个系列中存在着比任何已知分子还要靠后的分子。设m 为α的分子在Q 的前n 个分子当中的数目。那么我们把W(Q,α)定义为当n 无限增大时m/n 的极限。也许是由于疏忽,从莱新巴哈的说法来看,好象概率的概念只适用于级数,而完全不适用于有限类。我认为这并不是他的本意。举例来说,人类是一个有限类,并且我们愿意在生死统计上使用概率,而完全按照定义的说法是不能做到这一点的。作为一件心理事实来看,当莱新巴哈说到n=无限大①理查德?冯?米西斯《概率、统计与真理》第二版,维也纳,1936(第一版,1928)。汉斯?莱新巴哈《概率论》来登,1935。并参看后者的《经验与预见》,1938。时的极限的时候,他是把极限当作某个只要在n 从经验观点上看是大的情况下就可以非常接近的数,即是说只要在n 与我们的观察手段所能达到的最大限度相距不远的情况下。他有一个公理或者公设,意思是说就每个大的可以观察的n 来说,如果存在着这样一个数,那么它就接近等于n=无限大时的极限。这是一个很别拗的定义,不仅因为它是随意规定的,而且还因为我们所研究的纯粹数学范围以外的大多数系列都不是无限系列;我们确实可以怀疑它们当中任何一个是否存在。我们习惯于假定时空是连续的,这就蕴涵着无限系列的存在;但是这种假定除了为了数学上的方便而外是没有任何基础的。为了使莱新巴哈的理论变得尽可能适用,我将假定就有限系列的范围而论,上一章所绘的定义可以保留,而新的定义只是为了使我们能把概率用于禾限系列而做的一种扩充。这样他的Hn(O,P)就将是一种概率,但却是一种只能应用于系列的前n 项的概率。作为他的归纳形式,莱新巴哈假定了大体如下的公设:假定我们已经对于O 和P 的相互关连做过N 次观察,使得我们对于直到n=N 为止所有n 的值都能计算出Hn/(O,P),并且假定对于整个后一半n 的值来说,Hn(O,P)与某一分数P 相差永远小于ε,这里ε是很小的数。然后我们将假定不管我们怎样增大n,Hn(O,P)将仍然不超出这些狭窄的界限,因而作为n=无限大时的极限的W(O,P)也不会超出这些界限。如果没有这个假定,关于n=无限时的极限我们也就不会有任何经验上的证据,而专为了它们才做出这个定义的那些概率也就一定完全不能被人认识。面对着上面所说的困难,人们可以为莱新巴哈的理论提出两点辩护理由。第一,他可能认为假定n 无限接近无限大并不必要;就所有实际用途来说,只要n 可以变得非常大就够了。比方说假定我们在研究生死统计。保险公司并不关心再过一万年之后生死统计上所发生的变化;它所关心的最多不过是今后一百年的事。在我们已经积累统计结果之后,如果我们假定直到我们掌握了十倍于目前的数据之前,频率将大体保持不变,这就足以应付所有实际的需要。莱新巴哈可能说当他说到无限大时,他用的是一种方便的数学速记,意思只表示“这个系列中我们一直还没有研究过的一大部分”。他也许说,这种情况极其类似用经验方法确定速度的情况。从理论上讲,一个速皮只有在可测量的空间和时间的微小性没有限度的条件下才可以确定;从实用上讲,因为不存在这样的极限,我们也就从来不能知道在一个瞬间哪怕是近似的速度。诚然我们可以相当准确地知道一小段时间内的平均速度。但是即使我们假定连续性的公设,通过比方说一秒钟的平均速度我们也绝对得不到关于这一秒钟的一个特定瞬间的速度的任何知识。一切运动也许可能都是由为一些无限速度的瞬间所隔开的静止时间所组成的。如果我们不依靠这种极端的假说,即使我们假定数学意义上的连续性,任何一个瞬间的有限速度都可以与一段一定时间内任何有限平均速度不相抵触,不管包括这个瞬间的这段有限时间怎样短暂。可是就实际用途来说,这并没有什么关系。除了类似爆炸的少数现象外,如果我们认为通过一段很短可测量时间所得到的任何瞬间速度近似于那段时间的平均速度,那么我们就会发现物理学的定律是能够证实的。因此我们可以把“瞬间速度”当作为了方便而想出来的数学上的虚构。同样,莱新巴哈可能说,当他说到在n 为无限时一个频率的极限的时候,他所指的只是在很大的数目下实际的频率,或者不如说具有很小限度误差的这种频串。无限大和无限小是同样不能观察的,因而(他可能说)对于经验科学来说是同样无关宏旨的。我愿意承认这个答案的正确性。我只因为莱新巴哈的书没有明确地把这一点讲出来而感到惋惜;但是我却认为他心里一定是这样想的。有利于他的学说的第二个论点就是它正好适用于我们愿意对之应用概率论证的那些实例。当我们关于某一将来事件具有某些数据,但却不足以确定这个事件在我们感到兴趣的方面所具有的特性时,我们就愿意使用这些论证。比方说,我的死亡是一个将来的事件,并且如果我去保寿险,我就可能想知道关于我可能死在某一特定年份存在着什么证据。就这样的实例来说,我们总有许多记录在一个系列中的个别事实,并且我们假定我们迄今所发现的那些频率将大体继续下去。或者举赌博为例,这是全部概率产生的来源。我们感到兴趣的并不是一次掷两个骰子有36 种可能的结果这个单纯的事实。我们感到兴趣的是这件事实(如果它是事实的话),即在由抛掷组成的一个很长的系列中,这36 种可能当中每一种可能都有近似相等的实现次数。这是一件不能仅从36 种可能的存在推论出来的事实。当你遇到一个生人的时候,恰好有着两种可能:一方面,他可能是埃本尼兹?威尔克斯?斯密士;另一方面,他可能不是。但是在我漫长的一生中,我遇到过许多生人,我发现前一种只实现过一次。纯粹数学中的概率论只列举可能的事例,除非我们知道每种可能的事例发生的频率近似相等,或者以某种已知频率发生,否则这种理论就没有实用上的好处。如果我们研究的是事件,而不是一个逻辑图式,那就只能通过实际统计才能知道,而我们可以说实际统计的应用一定要大体按照莱新巴哈的理论来进行。我也将只是暂时承认这种论证;将来我们考察归纳的时候,我们将重新研究这种论证。对于照莱新巴哈所讲的那种理论还有另外一种不同性质的反对意见,这种意见所针对的是他在似乎只需要类的情况下引入了级数。让我们举一个具体的例来说明:任意选取的一个整数是质数的机会有多少?如果我们按照整数的自然顺序来选取整数,那么照他的定义来说,机会是零;因为如果n 是一个整数,在为大数时,小于或等于的质数的数目近似于nlognn,所以一个n小于的整数为质数的机会近似于log n,而在无限增大时n