第二章概率计算在本章内我想把概率论作为纯粹数学的一个分支来加以论述,演绎出某些公理的结论而无需给它们以这种或那种的解释①。我们可以看到,尽管人们对于这一领域内的解释意见不一,这种数学计算本身还是与数学中其它任何分支享有同样程度的公认。这种情况并不是概率论所特有的。微分学的解释约近二百年来一直是数学家和哲学家争论的一个题目;莱布足兹认为它包括真正的极小数,直到魏尔斯特拉斯这个看法才被完全否证。再举一个更带基本性质的例:对于初等算术从来没有发生过什么争论,但是自然数的定义却仍然是一个争论未决的问题。所以对于“概然性”的定义有疑问而对于概率计算没有(或很少有)疑问这一点我们就不必感到奇怪了。按照约翰逊和凯恩斯的办法,我们用“p/h”.. 来表示这个不下定义的概念:p 在已知h 的条件下的概率。当我说这个概念是不下定义的概念时,我的意思是说它只由将要列举出来的公理或公设来下定义。任何可以满足这些公理的东西都是概率计算的一个“解释”,人们可以料到将有许多可能的解释。其中没有哪一个比另外一个更为正确或更为合理,但是有些却可能比另外一些更为重要。所以在给皮阿诺的五个算术公理找出一种解释时,那种以O 为第一个数的解释就比那种以3781 为第一个数的解释更为重要;它之所以更为重要,原因在于它能让我们把形式主义的概念的解释和在列举中所认识的概念等同起来。但是目前我们将不去管一切解释的问题,我们对概率只作纯粹形式的论述。不同作者所提出的必要的公理或公设都大体相同。下面的说法采自C. D.布劳德教授①。这些公理是:1.已知P 和h,那么p/h 只有一个值。所以我们能够谈到“p 在已知h的条件下的概率”。II.p/h 的可能值是所有从0 到1 的实数,包括0 与1 在内。(照某些解释我们把可能值限于有理数;这是一个我将在以后讨论的问题。)III.如果h 蕴涵p,那么p/h=1。(我们用“1”表示必然性。)IV,如果h 蕴涵非p,那么p/h=0。(我们用“0”表示不可能性。)V.p 和q在已知h的条件下的概率等于p在己知h的条件下的概率乘以q在已知h 的条件下的概率,也等于q 在已知h 的条件下的概率乘以P 在已知q 和h 的条件下的概率。这叫作“合取”公理。VI.p 和/或q在已知h的条件下的概率是p在已知h的条件下的概率加。q 在已知h 的条件下的概率减去p 和q 在已知h346 的条件下的概率。这叫作“析取”公理。就我们的目的来说,这些公理是否都是必要的并没有什么要紧;我们所关心的只是它们是充分的。关于这些公理有几点需要注意。显然II、III 和IV 部分地体现了容易改变的惯例。如果采用了它们,而一个已知概率的约量是X,那么我们就同样有理由采用任何随着X 的增长而增长的数f(x)作为约量:我们可以用f(1)① 关于“解释”,看第四部分第一章。① 哲学杂志“精神”,新第210 号,第98 页。和f(O)替换III 和IV 中的1 和0。按照上面的公理,一个与件为真则必真的命题,相对于与件来说,具有概率1;一个与件为真则必伪的命题,相对于与件来说,具有概率0。重要的是看到我们的基本概念p/h 是两个命题的一种关系(或者命题的合取),而不是一个单一命题的一种性质。这就把数学计算中的概率与作为实际生活指南的概然性区分开来,因为后者只能属于一个本身独立存在的命题,或者至少属于一个相对于不是任意选定,而是受我们知识的问题和性质决定的与件的命题。与此相反,在概率计算中,与件h 的选定完全是任意的。公理V 是“合取”公理。它提供的机会是两个事件中每个都会发生。例如:如果我从一副纸牌中抽出两张牌来,它们都是红牌的机会是多少?这里“h”代表一副纸牌由26 张红牌和26 张黑牌组成这个与件;“p”代表“第一张牌是红牌”这句活,而q 代表“第二张牌是黑牌”这句话。那么“(p和q)/h”就是两张牌都是红牌的机会,“p/h”是第一张牌是红牌的机会,“q/(p 和h)”是在已知第一张牌是红牌的条件下,第二张牌是红牌的机会。显然“p/h=1/2,q/(p 和h)=25/51。这样根据本公理,两张牌都是红牌的机会是1/2×25/51。公理VI 是“析取”公理。就上面的实例来看,它提供的机会是这两张牌中至少有一张牌是红牌。它说至少有一张红牌的机会等于第一张牌是红牌的机会加上第二张牌是红牌的机会(在不知道347 第一张牌是红牌还是不是红牌的情况下)减去两张牌都是红牌的机会。这等于12 十13 — 12 ×2551,它采用了上面使用合取公理所取得的结果。可以明显看出,已知任何有限的事件集合的各自概率,通过公理V 和公理VI,我们能够计算出它们都出现,或者它们当中至少有一个出现的概率。根据合取公理我们得出:p/ qh =(p/h ×( ( 和))qph(和)q/h这叫作“逆概率原理”。它的用处可以举例说明如下。设p 为某种一般理论,q 为一个与p 相关的实验与件。那么p/h 就是在前所已知的与件下理论p 的概率,q/h 就是在前所已知的与件下q 的概率,q/(p 和h)就是当p 为真时q的概率。这样理论P 在已经发现q 以后的概率等于p 先前的概率乘以q 在已知p 的条件下的概率,并除以q 先前的概率。在最有用的情况下,理论p 将是一个蕴涵q 的理论,结果q(p 和h)=1。在这种情况下。p/ qh =q/h。(和)p/ h这就是说,新的与件q 使p 的概率按照与q 的先在的不大可能性成比例的方式增加。换句话说,如果我们的理论蕴涵某种非常令人惊奇的事物,而这种令人惊奇的事物后来被人发现存在,这就大大增加了我们的理论的概率。这个原则可以拿发现海王星作例来说明,把它当作万有引力定律的证实。这里p=引力定律,h=在发现海王星之前所有有关事实,q=在某一地点发现海王星这件事实。这样q/h 就是一个至今尚未发现的行星将在某一小的天体领域内被发现的先在概率。让我们用m/n 来表示它。那么在海王星被发现之后,引力定律的概率为以前的n/m 倍那样大。从判断新的证据对于一种科学理论的概率的关系上来说,这个原则显然是很重要的。可是我们将发现结果却有些令人失望,不能产生可以期待的好的结果。有一个重要的命题,有时叫作贝那士定理,内容有如下述:设P1,P2,..Pn 为n 个互相排斥的可能,我们知道其中某一个为真;设h 为一般与件,q为某件有关的事实。我们想知道一种可能p,在已知q 的条件下的概率,如果我们知道对于每个r 来说,每一pr 在尚未知道q 时的概率以及q 在已知Pr 的条件下的概率。我们有nPr/ qh q/ (pr h pr/h ) / .(( pr,和)?pr /h )(和)=(和)?qh1这个命题使我们能够,比方说,解决下面的问题:我们已知n+l 个口袋,其中第一个口袋装有n 个黑球,没有白球,第二个口袋装有n-个黑球和一个白球,第r+1 个口袋装有n-r 个黑球和r 个白球。选出一个口袋,但是我们并不知道是哪一个;从中取出m 个球,发现都是白的;那么第r 个口袋被选中的概率是多少?从历史上来看,这个问题的重要是因为它与拉普拉斯自称的归纳证明有关。再看柏诺利的大数定律。这个定律说,如果在许多场合当中每一个场合发生某一个事件的机会是p,那么,在已知不管多么小的任意两个数δ和ε的条件下,从某一定数目的场合往后,发生这个事件的场合的多少与p 的差将永远大于ε的机会小于δ。让我们拿抛掷钱币作例来说明。我们假定出正面和反面具有同样的概率。我说在你已经掷过不少次之后,出正面的机会与12的差非常可能将不会超过ε,不管ε可能多么小;我还说不管ε可能多么小,在第n 次抛掷之后,无论在什么地方出现这样一个差别的机会小于δ,只要n 足够大。由于本命题在概率的应用上有着很大的重要性,比方说对于统计,所以让我们多费一点时间,就上面这个抛掷钱币的实例来说,弄清楚本命题所说的意思到底是什么。让我们说,我先断言从某点往后,钱币出正面的百分比将永远保持在49 与51 之间。你349 不同意我的说法,于是我们决定在可能范围内用经验的方法就它进行试验。这个定理断言我们进行的时间越久,我们就越有可能发现我的说法有事实根据,并且随着抛掷次数的增加,这种可能就越来越接近必然性这个极限。我们将假定,实验让你相信从某点在后,出正面的百分比永远保持在49 与51 之间,但是我现在说从某个更靠后的点往后,它将永远保持在49.9 与50.1 之间。我们重做这种实验,过了一段时间之后你又一次被说服,虽然时间可能要比以前长一些。经过任何已知数目的抛掷之后,我的主张有着可能不被证实的机会,但是这种机会随着抛掷次数的增加而减少,并且可以通过相当持久继续这样做下去而变得小于任何指定的机会,不管它多么小。上面的命题容易从那些公理演绎出来,但是当然不能用经验的方法充分得到试验,因为这涉及到无限级数。如果我们所能进行的试验看来已经证实了它,反对者永远可以说,如果我们接着进行下去,结果就可能不是这样;如果我们所能进行的试验看来不能证实它,支持这个定理的人同样可以说,我们继续做的试验还不够多。所以这个定理既不能被经验界的证据证实,也不能被它否证。上面是对于我们的讨论有着重要关系的纯粹概率论中的一些主要命题。对于n+1 个口袋,每个口袋装有n 个球,其中一些是白球,另外一些是黑球,第r+l 个口袋装有r 个白球和n-r 个黑球这个题目我还想再说几句话。下面是与件:我知道这些口袋装有不同数目的白球和黑球,但从外面看却没有办法把它们区分开来。我随便挑选了一个口袋,并且一个一个地从中取出m 个球,取出之后就不再放入。结果它们都是白球。鉴于这个事实,我想知道两件事:第一,我挑选只有白球的口袋的机会有多少,第二,我下一次拿出的球是白球的机会有多少?我们照下面的方法来做。设h 为按上面所说的情况安排好的口袋那件事实,q 为已经取出m 个球那件事实;并设Pr 为我们已经350 挑中装有r 个白球的口袋的假设。显然r 必须至少和m 一样大。如果r 小于m,那么pr/qh=0,并且q/prh=0。经过一些计算,得出的结果是我们已经挑中其中都是白球的口袋的机会等于m + 1on + 1我们现在想知道下一次拿出的球是白球的机会是多少。经过进一步的计算,结果这种机会等于mm++ 12。注意这个结果是不以n 为转移的,并且如果m 大,它就非常接近1。在上面的简略叙述中,我并没有把关于归纳问题的论证包括进去,我将把那些论证推到后一个阶段去讨论。我将首先研究概率的某种解释的适当性,就这个问题可以与有关归纳的问题分开的限度内进行考察。第三章有限频率的解释在本章内我们要研究的问题是关于“概然性”的一种非常简单的解释。首先我们必须证明这种解释满足第二章的公理,然后再初步考察这种解释可以在多大范围内囊括“概然性”这个词的通常用法。我将把这种解释叫作“有限频率说”,以区别于后面我们将要研究的另一种频率说。有限频率说从下面的定义出发:设日是任何一个有限集合,而A 是任何一个另外的集合。我们想确定任意选择的日的一个分子为A 的一个分子的机会,比方说,你在街上遇见的第一个人名叫斯密土的机会。我们把这种概率定义为B 的分子也是A 的分子的数除以日的总数的商。我们用A/B 这个符号来表示它。显然给予这样定义的概率一定是一个有理分数或者就是0 或1。几个具体的例子就可以让我们看清楚这个定义的意义。一个任意挑选的小于10 的整数为质数的机会是多少?有9 个整数小于10,其中5 个是质数;所以机会是5/9。假定你不知道我的生日,那么在我去年生日那天剑桥下雨的机会是多少?如果剑桥下雨的天数是m,那么机会就是m/365。一个人在伦敦电话簿里出现为斯密士这个姓的机会是多少?为了解决这个问题,你必须先数一下在“斯密士”这个姓下面的项目,然后数一下全部项目,并以后面的数去除前面的数。从一副纸牌里随便抽出的一张纸牌为黑桃的机会是多少?显然是13/52,即1/4。如果你已经抽出一张黑桃,那么你再抽出一张黑桃的机会是多少?答案是12/51。一次掷出的两个骰子,数目加起来为8 的机会是多少?骰子有36 个可能出现的给局,其中有5 个数目加起来为8,所以机会是5/36。显然就许多简单例子来说,上面的定义所得的结果符合于概然性的习惯用法。现在让我们擦究一下给予这样定义的概然性是否满足那些公理。我们现在必须把公理中出现的字母p,q 和h 当作类或命题函项,而不是命题。我们不说“h 蕴涵p”,而说“p 包含h”;“p 和q”代表p 和q 两类的共同部分,而“p 或q”则代表由所有属于p 或q 或者同时属于p 与q 两类的项目所构成的类。我们的公理是:I.p/h 只有一个唯一的值。除了在h 为零,因而p/h=%的情况外,这个公理为真。因此我们假定h 不为零。II.p/h 的可能值是所有从0 到1 的实数。照我们的解释,它们将仅是有理数,除非我们能找到一种方法把我们的定义扩展到无限类。这并不是容易做到的事,因为当除法涉及到的数目是无限数的时候不能得出唯一的结果。III.如果h 包含于p,那么p/h=1。在这种情况下,h 与p 的共同部分是h,所以根据我们的定义就可以得出上面的结果。IV. 如果h 包含于非p,那么p/h=O。从我们的定义就可以看出这一点,因为在这种情况下h 与p 的共同部分是零。V.合取公理。照我们的解释来讲,h 的分子同时为p 和q(的分子所占的比例数等于h 的分子同时为p 的分子所占的比例数乘以p 与h 的分子同时为q 的分子所占的比例数。假定h 的分子数为a,同时属于P 和h 的分子数为b,而同时属于p,q 和h 的分子数为c。那么h 的分子同时为p 和q 的分子所占的比例数是c/a;h 的分子同时为p 的分子所占的比例数是b/a,而p 和h 的分子同时为q 的分子所占的比例数是c/b。这样我们的公理就得到了证实,因为c/a=b/ax c/b。VI.析取公理。如果保留上面所说的a,b,C,的意义,并让d 为h 的分子同时为p 或q 或者同时属于p 与q 两类的分子数,而e 为h 的分子同时为q的分子数,那么照我们现在的解释来讲,这个公理就表示:d beca=a+a-a, 即d = b + e -c,这又是很明显的一个结果。这样,如果h 是一个有分子的有限类,那么这就可以满足我们的公理,只要不把概率的可能值限为有理分数的话。由此可以看出数学的概率论照上面的解释来讲是正确的。可是我们还需要看一下给予这样定义的概率的范围,这种范围初看似乎过于狭小,不能满足我们对于概率的应用所抱的期望。首先,我们希望能够说出某个特定事件具有某种特点的机会,而不仅仅是某一类中某个未经指定的分子所具有的机会。例如:你已经掷出两个骰子,但是我还不曾看到结果。对我来说,你掷出双六的机会是多少?我们想能够说出它是1/36,而如果我们的定义不允许我们这样说,它就不能充分满足我们的要求。在这种情况下,我们说我们把一个事件仅仅当作某一类的一个实例来看待;153 我们说如果把a 只当作B 类中的一个分子,那么它属于A 类的机会是A/B。但是“把一个特定事件仅仅当作某一类的一个分子来看”所表示的意思是不很明确的。这样一种情况所包含的内容是:我们已知一个事件的某种特点,这种特点凭借比我们所有的更为完备的知识,足以使这个事件唯一确定下来;但是只凭借我们的知识,我们就没有方法确定它是否属于A 类,尽管我们确实知道它属于B 类。你在掷出骰子以后知道掷出的结果是否属于双六这一类,但是我却不知道这一点。我仅有的一点有关的知识是它是36 个可能的掷出结果之一。或者看一看下面的问题:美国身材最高的人居住在衣阿华州的机会是多少?有人也许知道他是谁;至少有着一种发现他是谁的方法。如果使用这种方法成功,那就出现一个不包含概然性在内的确定答案,即他要么在衣阿华州居住要么不在衣阿华州居住。但是我却没有这种知识。我可以说衣阿华州的人口为m,而美国人口为n,并且说相对于这些数据来说,他在衣阿华州居住的概率是M/n。这样当我们说到一个具有某种特点的特定事件的概率时,我们就总要把借以计算概率的有关数据确定下来。我们可以概括他讲:已知任何一个物体a,并且已知a 是B 类的一个分子,我们说凭借这个数据,按照上面所说的概率的定义,a 是A 类的一个分子的概率是A/B。这个概念是有用的,因为我们常常充分知道某个物体,使得我们可以唯一确定地给它下出定义,而无需知道它是否具有这种或那种属性。“美国身材最高的人”是一个确定的描述,这个描述适用于一个并且只适用于一个人,但是我并不知道他是什么人,因而他是否居住在衣阿华州对我来说仍然是个未决的问题。“我要抽出的一张牌”是一个确定的描述,并且我立刻就会知道这个描述是否适用于一张红牌或是一张黑牌,但是现在我还不知道。正是这种很常见的关于特定物体的部分无知的情况使得在特定的物体身上应用概率成了有用的东西,而不仅是应用到类中完全没有确定的分子身上。虽然部分无知是使上面的概率形式有用的原因,概率这个概354 念却不包含什么无知,这个概念对于全知来说仍然具有和对于我们来说同样的意义。全知会知道a 是否为一个A,但是全知仍然可以说:凭借a 是一个B 这个数据,a 是一个A 的概率是A/B。在把我们的定义应用到特定的实例时,在某些情况下存在着一种可能发生的意义上的含混。为了弄清楚这一点,我们必须使用性质而不是类的说法。设A 类由性质φ确定,而B 类由性质ψ确定。接着我们说:a 在已知它具有性质φ的条件下具有性质ψ的概率被定义为同时具有性质φ和ψ的事物对于具有性质ψ的事物之比。我们用“φa”来表示“a 具有性质φ”。但是如果a 在“φa”内出现不止一次,那就会出现一种意义上的含混。举例说,假定“φa”是“a 自杀了”,即“a 杀死a。这是“x 杀死x”的一个值,而“x 杀死x”是由自杀组成的类;也是“a 杀死x”的一个值,而“a 杀死x”是a 杀死的人组成的类;也是“x 杀死a”的一个值,而“x杀死a”是杀死a 的人组成的类。这样在给φa 的概率下定义时,如果“a”在“φa”中出现不止一次,我们就必须指出它的哪些次出现可以当作一个变量的值和它的哪些次出现不可以当作一个变量的值。我们将发现我们能够按照上面的定义来解释所有的基本定理。让我们拿拉普拉斯自命的归纳证明为例来看:有N+1 个口袋,每个口袋中有N 个球。在这些口袋中,第r+l 个口袋中有r 个白球和N-r 个黑球。我们已经从一个口袋中拿出n 个球,而这些球全是白球。那么:(a)我们已经挑中其中都是白球的口袋的机会是多少?(b)下一个球是白球的机会是多少?拉普拉斯说(a)是(n 十1)/(N+1)而(b)是(n+1)/(n+2)。让我们用一些数字实例来说明。首先:假定一共有8 个球,其中已经取出4 个球,而这4 个球全是白球。那么(a)我们已经挑中只有白球的口袋的机会和(b)下一次取出的球是白球的机会各是多少?设Pr 代表我们已经挑中有r 个白球的口袋这个假设。数据把P0,P1,P2,P3 排除在外。如果我们有P4,那么我们只有一种方法可以已经拿出4 个白球来,剩下4 种拿出一个黑球的方法,但却没有一种拿出一个白球的方法。如果我们有P5,那么我们有5 种方法可以已经拿出4 个白球,并且对于其中每一种方法来说都有一种拿出另一个白球和三种拿出一个黑球的方法;这样从P5 我们就得出5 个下一个球是白球和15 个下一个球是黑球的实例。如果我们有P6,那么就有15 种挑出4 个白球的方法,并且在挑出它们之后还剩下两种挑出一个白球和两种挑出一个黑球的方法;这样我们从P6,就得出30 个挑出另一个白球和30 个下一个球是黑球的实例。如果我们有P7,那么就有35 种拿出4 个白球的方法,并且在拿出它们之后还剩下3 种拿出一个白球和一种拿出一个黑球的方法;这样我们就有105 种拿出另一个白球和35 种拿出一个黑球的方法。如果我们有P8,那么就有70 种拿出4 个白球的方法,并且在拿出它们之后还有4 种拿出另一个白球但却没有一种拿出一个黑球的方法;这样我们从P8 得到280 个第5 个白球和没有黑球的实例。加在一起,我们就有5+30+105+280 即420 个第五个球是白球和4+15+30+35 即84个第五个球是黑球的实例。所以白球所占的优势是420 比84,即5 比1;这