j() / ψ( )= j( )ψ( );aa bb也就是说,这个结果得自这个条件:概率依靠的不是个别主词而是命题函项。顺着这些想法,我们似乎有希望得出也许比凯恩斯的原理更加不证自明的无差别原理的一种形式。为此让我们研究一下他的不可分性的条件。凯恩斯把“( )是不可j a分的”定义为有两个项目和使得“j ”和“jb”或“j ”具有相bc同的意义,并且jb和jc不能同(c) 时为真,(a) 而jb,jc在已知的情况下h都是可能的。我认为这并不完全符合他的原意。我认为如果我们假定a 和b和c 是类,其中a 是b 与c 的和,我们就更加接近他的原意。在这种情况下,j一定是一个以类为其项目的函数。例如,设是靶子上一块面积,分为和bca两部分。设“j a ,并且“ψ”是“aa”是“上面被打中的某一点”a上面被瞄准的某一点”。那么ψ a 就上面的意义来说就是可分的,并且我们得不出b/ bja/ ψa=j ψ,a/ a ψ。因为显然j ψ 大于jb/ b但是关于我们的前一个条件,即h 对于a 和b 来说应该是对称的,并不是充分的条件这一点我们还不清楚。因为现在h 包括“b 是a 的一部分”这个命题,而这个命题并不是对称的。凯恩斯讨论了ja/ ψa=jb/ ψ 的条件,并且给我们提供了一个失败b的例子,在这个例子ψx=x 是苏格拉底。就这个实例来说,不管ψx 可能是什么,j(苏格拉底)/ ψ(苏格拉底)=1而如果心不是苏格拉底,ψb/ψb=0。为了排除这种情况,我立下一条规定,即“ψx”一定不包括“a 在内。举一个类似的例,设ψx=x 杀死a,ψx=x住在英国。那么ψa/ψa 就是a 的自杀的可能性,如果a 是英国人的话,而ψx/ψx 一般来说就是a 披某个名叫x 的英国人所谋害的可能性。显然在多数情况下,ψa/ψa 大于ψb/ψb,因为一个人杀死自己的可能性比杀死另外一个任意选择的人的可能性要大。这样,最重要的条件看来似乎是“ψx”一定不包括“a 或“b”在内。如果这个条件被满足,我就看不出有任何理由得不到b/ bja/ ψa=j ψ。我的结论是,无差别原理真正断言的是命题函项之间而不是命题之间的一种关系。这就是“一次任意的选择”这类说法所表示的意思。这个说法所表示的意思是:我们要把一个项目仅仅当作一个满足某一命题函项的项;所以我们说的话实际上只是关于命题函项而不是关于命题函项的这个或那个值的。然而还存在着某种为我们关心的重大问题。已知两个命题函项jx和ψ之间的一种概率关系,我们可以把这种关系当作ja和ψ之间的一种关系(x) ,只要“jx和“ψ”不包括“”在内的话。这是在xa 概(a) 率的全部实际应用上一个必要的公理,因为这样一来我们所要研究的问题才是个别的事例。我的结论是:凯恩斯的概串论的主要形式上的缺点在于他把概率当作命题之间而不是命题函项之间的一种关系。我认为应用到命题上面属于这个理论的用途而不属于这个理论本身。第六章可信度A. 通论认为全部人类知识在不同程度上都是可以怀疑的看法是从远古就有的;怀疑论者曾经主张过这种看法,在柏拉图学园的怀疑时期这种看法也流行一时。莎土比亚这样挪揄过最可笑的极端的怀疑主义:不相信星辰是火团,不相信太阳的运转。在他写诗的时候,哥伯尼早已对后一句话提出了怀疑,不久以后开普勒和加里略也提出了更为有力的怀疑理由。前一句是荒谬的,如果“火”是按照化学中所讲的那种意思的话。许多看来无可置疑381 的事物现任已经被人看出很可能是错误的。科学理论本身随着新的证据的积累而不断发生变化;慎重的科学家对于一种新的科学理论不会再抱有中世纪人们对于托勒密学说所抱的那种信心。但是尽管我们愿意当作“知识”来看的那种东西的每一部分在某种程度上可能都是可以怀疑的,显然某些事物几乎是确定无疑的,而另外一些事物则是毫无把握的揣测。对于一个有理性的人来说,存在着一个表示不同程度的怀疑的尺度,这个尺度的一端是简单的逻辑和算术上的命题以及知觉判断,另一端则是类似麦西尼①人说的是什么语言或者希腊神话中妖女唱的是什么歌那样的问题。我们的最无可置疑的信念是否带有任何程度的可疑性不是我们现在需要研究的问题;我们只需要研究任何一个我们具有合理根据而对之抱有某种程度的相信或不相信的命题在理论上都可以排列在一个以必然的真理和必然的荒谬为两端的尺度之上。这些极端是否可以包括在这个尺度之内,我们可以暂时作为一个悬而未决的问题。数学上的概率和可信度之间存在着某种关连。这种关连是:如果一个命题对于所有有关证据来说具有某种数学上的概率,那么这就确定了它的可信度的大小。举例来说,如果你正要掷骰子,“掷成双六”这个命题只有“掷不成双六”这个命题所具有的可信度的三十五分之一。所以对于每个命题都给予适当的可信性的有理性的人只要可能就将以数学的概率论作为行为的指导。可是“可信度”这个概念在应用范围上却比数学上的概率的概念广泛得多;我认为它适用于每个命题,除了那些既不是数据又不是以有利于或不利于承认这些数据而与这些数据相关的命题。我特别认为它适用于那些已经尽可能接近于只表示数据的命题。如果这个看法在逻辑上站得住的话,我们就必须认为一个命题所具有的可信度本身有时就是一种数据。我认为我们应当认为一种数据所具有的可信度有时是一种数据,有时(也许永远)却不具备必382 然性。在这种情况下,我们可以认为只有一种数据,即一个具有可信度的命题;我们也可以认为这种数据与它的可信度是两种不同的数据。我将不去研究在这两种看法当中我们应该采纳哪一种看法。一个不是数据的命题可以由许多不同的来源取得可信性;一个想证明自① 麦西尼,古希腊城市名。——译者己清白无罪的人可以同时根据本人不在现场和他以前的良好品德来进行辩护。有利于一种科学假说的理由实际上永远是几方面合成的。如果人们承认一种数据可能不具备必然性,那么它的可信度可能由于一种论证而增加,或者与此相反,它的可信度可能由于一种反面论证而变得很小。一个论证带来的可信度是不能单纯估计出来的。首先让我们看最简单不过的情况,即其中前提具有必然性而论证在正确有效的情况下具有证明性质。在每一步我们必须“看清”这一步的结论得自它的前提。有时候这很容易;比方说,如果论证是巴巴拉式的三殷论法。在这种情况下,前提与结论之间的关连所具有可信度几乎就是必然性,结论几乎和前提具有同样的必然性。但是在一个困难的数学论证中,推理上发生谬误的机会就大得多。在一个高明的数学家看来,逻辑关连可能十分清楚,而一个学生却只能偶而才查觉到这种关连。这个学生相信这一步的正确性的理由并不完全是逻辑上的;这些理由有一部分来自权威方面的论证。这些论证绝不是证明性质的,因为就连最高明的数学家有时也会发生错误。根据这一类的理由,象休谟所指出的那样,一个长的论证的结论比一个短的论证的结论具有较小的必然性,因为在每一步都有某种发生谬误的危险。通过某些简单化的假说,我们可以把这种不确定性的来源限制在数学的概率论的范围之内。假定人们已经证实在数学的某一分支中,高明的数学家在所有实例中就论证中的一步来说推理正确的比例是x;那么他们在n 步的论证中推理一直正确的机会就是xn。由此可以看出一个不曾通过重演加以证实的长的论证有着相当大的发生推理谬误的危险,即使X 接近于1 也是这样。但是重演可以把这种危险缩小到很小限度。所有这些都在数学的概率论范围之内。然而,超出数学的概率论的范围之外的却是个别数学家在推论每一步时所抱的个人的信心。这种信心将随着这一步的困难与复杂而有着程度上的不同;但是尽管存在着这种不同,它却必须与我们对于知觉对象所抱的信心一样直接无间。为了证明某一个前提蕴涵某一个结论,我们必须“看清”每一步;我们只能通过把这一步分解为若干更小的步骤来证明这一步的正确,然后我们又必须把每一更小的步骤“看清”。除非我们承认了这一点,否则一切论证都将消失在无止境的后退中。到现在为止,我一直在讲证明性质的推理,但是就我们目前的问题而论,非证明性质的推理并没有带来什么新的问题,因为象我们所看到的那样,即使是证明性质的推理在由人来完成时也只能给结论以概然性。人们甚至不能说自命是证明性质的推理总比被认为只具有概然性的推理具有更高程度的概然性;传统的形而上学有不少关于这一方面的例证。如果——象我所相信并且象我将在适当时候加以论证的那样——数据以及推理结果可以不具备最高的可信度的话,那么数据与推论出来的命题之间的认识论方面的关系就变得比较复杂起来。比方说,我可以认为我回想起了某件事情,但是又找到理由相信那件我似乎回想起来的事情从来也没有发生过;在这种情况下, 我可能由于论证而不承认数据。反过来说,当数据本身没有很高程度的可信性时,它却可以由于外界的证据而得到肯定;例如,我可能隐约回忆起和某某先生在去年某时一起吃过饭,并且我可能找出我去年日记上有一个项目证实我的记忆。由此可以看出,我的信念当中每一个信念都可能由于与其它信念连系起来看而得到加强或减弱。然而数据与推理之间的关系却仍然是重要的,因为相信不管384 什么事物的理由在经过充分分析之后,都必须在数据上,并且只有在数据上找到。(这里我是把任何可能涉及到的推理中所使用的那些原理也包括在数据之内。)由此得出的结果是:有关某种个别信念的数据可能比我们初次看到它们时所显示的要多得多。让我们再举记忆的例。我想起一件事情这个事实就是这件事情曾经发生的证据,尽管不是决定性的证据。如果我找到这件事情的当时记录,那就成了证实这件事情的证据。如果我找到许多这类记录,那么证实这伴事情的证据就得到了加强。如果发生的那件事情是一件象金星横过日面那样由于一种已经巩固地建立起来的科学理论而变得带有必然性的事情,我们就必须把这件事实加到那些记录之上,作为一个附加的相信理由。这样,一方面存在着只是论证的结论的信念,另一方面,在知识的合理表述中却不存在只是前提的信念。在我这样讲的时候,我用的不是逻辑上的而是认识论上的说法。这样我们就可以把一个认识论的前提定义为一个本身就带有某种程度的合理可信性的命题,而不是依靠它与其它命题的关系。每个这样的命题都可以被用来加给那些不是从它推导出来就是与它有着一种概率关系的命题以某种可信度。但是每经过一步,原有的可信性就减少一些;这种情况和财产每经一次继承由于付出死亡税而减少一样。如果把这个类比再往前推进一步,我们可以说本来的可信性类似一个人自己挣得的财产,而作为论证结果的可信性则类似继承的财产。这个类比的成立在于一个已经挣得一份财产的人也可以继承一份财产,尽管每份财产的最初来源一定不是继承。我打算在本章内讨论可信性,首先把它和数学的概率,再把它和数据,然后再把它和主观必然性,最后把它和合理的行为联系起来加以讨论。B. 可信性与频率我现在要讨论这个问题:如果已知某个ψχ、那么在什么外界条件下从ψχ的频率中得出一个命题a 的可信性?换句话说,如果“ψχ”是“a 是一个a”,那么在什么外界条件下从一个或更多个具有“a 的分子中有W/n 是β.. 的分子”形式的命题中得出“a 是一个β”的可信性?我们将发现,这个问题并不象我们应当问的那个问题那样具有普遍性,但是我们首先讨论它还是可取的。常识似乎明确地认为:在数学概率的典型例证中,它就等于可信度。如果我从一副纸牌中随便取出一张纸牌,那么“纸牌是红的”的可信度恰好等于“纸牌不是红的”的可信度,因而每一种的可信度都是1/2,如果1 代表必然性的话。就一个骰子来说,“最上方是1”的可信度恰好等于“最上方是2 或3,4,5,6”的可信度。因此我们可以把数学的慨率论中所有推导出来的频率都解释为推导出来的可信度。在把数学的概率翻译成可信度的这个过程中,我们使用了一个数学的概率论并不需要的原理。数学的概率论只是计算各种情况;但是在这个翻译过程中我们却必须认识到或者假定每一种情况都是同样可信的。这个原理的必要性很久以来就已经被人认识到;人们把它叫作不充足理由原理,或者(按照凯恩斯的说法)无差别原理。我们曾经把这个原理和凯恩斯联系在一起加以研究,但是现在我们却必须单独来研究它。在对它进行讨论之前,我愿意指出这个原理在数学的概率论中并不是必要的。在这种理论中,我们只需要知道各种不同的类的数目。只有在我们把数学的概率当作可信性的尺度时我们才需要这个原理。我们所需要的原理大致如下:“已知一个客体a,关于它我们想知道‘a是一个β’这个命题具有多大的可信度,并且已知我们仅有的有关知识是‘a是一个a’,那么‘a 是一个β’的可信度就是由a 和β共有的分子数与a的分子数之比所确定的数学概率”。让我们再一次举一个说过的实例来说明这一点,那就是美国身材最高的人居住在衣阿华州的机会。这里我们一方面有一个描述d,我们知道它适用于A1,A2,..An 有姓名的人当中的一个并且仅仅一个,其中n 是美国的居民数。这就是说,我们知道在“d=Ar”那些命题中有一个并且仅仅一个(这里r 是从1 到n 的数)为真,但是我们不知道是哪一个。如果这真是我们的全部有关知识,我们就认为“d=Ar”这些命题中任何一个都和任何另外一个同样可信。在这种情况下,每个命题都具有1/n 的可信性。如果衣阿华州有m 个居民,“d 居住在衣阿华州”这个命题的意义就等于“d=Ar”这些命题中m 个命题的一个析取命题,因而为它们当中任何一个命题的可信性的m 倍,因为它们是互相排斥的。所以它具有一个由m/n 来确定的可信度。当然在上面的实例中“d=Ar”这些命题并不都属于同一等级。证据可以使我们把儿童和矮子,多半还把妇女除外。这就表明这个原理可能难以应用,但是并不表明它为伪。从一副纸牌中抽取一张纸牌的情况更接近于实现这个原理所要求的条件。这里“d”这个描述是“我要抽出的那张纸牌”。52 张纸牌都具有可以被我们当作名字的东西:黑桃2 等等。这样我们就有52 个“d=Ar”命题,其中有一个并且只有一个为真,但是我们却没有任何使我们选择一个而不选择另一个命题的证据。所以每一个命题的可信性是1/52。如果我们承认这一点,那么它就把可信性和数学的概率联系起来。因此我们可以提出下面的公理,作为“无差别原理”的一种可能的形式:“已知一个描述d,关于它我们知道它适用于a1,a2,..an 等客体中的一个并且仅仅一个,并且已知我们不知道任何有关这个描述适用于这些客体中哪一个的问题的知识,那么n 个‘d=ar’(1≤r≥n)的命题就都是同样可信的,因而每个命题都有1/n 大小的可信性”。这个公理比起一般所说的不充足理由原理来范围要狭小一些。我们必须研究它是否充分,还要研究我们是否有理由来相信它。让我们首先把上面的公理与上一章所讨论的凯恩斯的无差别原理比较一下。我们记得他的原理是:相对于已知证据来说,p 和q 的概率是相等的,如果(1)这个证据关于p 和q 是对称的,(2)p 和q 是“不可分的”,即p和q 都不是具有与它本身形式相同的命题387 的析取命题。我们认为这种说法可以简化如下:我们说必要的条件是p 和q 应当是一个命题函项的值,比方说p=j q=j b j ”不应当包括或;并且如( )和( );“ b 果这个证据有一(a) 次提到过,比方说以(x) j a 式(a)( )的形出现,它就一定也包括(),并且反过来说jb(a) 也对,这(a) 里jx一定不再提到或。这个原ba理比起前一节所说的那个原理在某种程度上具有更大的一般性:它蕴涵着后一个原理,但是我却怀疑后一个原理是否蕴涵着它。我们也许可以接受这个更为一般的原理,并把它重述如下:y 。其中没有一个提到过或,或者如“已知两个命题函项j 和ab 果它们提到过或,提到的方ab(x) 式是(x) 对称的,那么在已知ya和yb的条件下,ja和jb具有相等的可信性”。如果我们接受这个原理,它将使我们能够从数学的概率推论出可信性,并且使得数学概率论的全部命题可以在能够应用数学的概率论的实例上用来确定可信度。让我们把上面的原理应用到下面这个实例上来:一个口袋里有n 个球,我们知道其中每一个球不是白球便是黑球;问题是:有x 个白球的概率是多少?拉普拉斯认为x 从0 到n 的每个值都具有相同的可能性,所以一个已知的x 的概率是1/(n+1)。从纯粹数学的观点看,这是合理的,只要我们从这个命题函项开始:x=白球数。但是如果我们从这个命题函项开始:x 是一个白球,我们就得到完全不同的结果。就这个实例来讲,有许多选择x 个球的方法。第一个球的选择可以有n 个方法;在选择了第一个球之后,下一个球的选择可以有n-1 个方法,以此类推。这样选择x 个球的方法是n×(n-1)×(n-2)×..×(n-x+1)。这是可以有x 个白球的选择方法数。为了得出x 个白球的概率,我们必须用选择0,1,2,3 或n 个白球的方法的和去除这个数。这个和显然是2n。所以恰好得到x 个白球的机会是用2n 去除上面这个数而得到的。让我们把它叫作“p(n,r)”。当n 为偶数,x=1/2n 时,或者当n 为奇数x=1/2n±1/2 时,这种机会最大。在x 或n-x 小的时候,如果n 大,那么它的值就很小。从纯粹数学的观点看,这两个非常不同的结果是同样合理的。但是在我们处理可信度的度量上,它们之间的差别却很大。让我们有某种不靠颜色来分别这些球的方法;例如,把它们从一个口袋中陆续取出来,并且让我们把第一个取出来的球叫作d1,第二个取出来的球叫作d2,以此类推。使“a”代表“白”,“b”代表“黑”,并且使“ja”代表“d 的颜色是白色”,“jb”代表“d1的颜色是黑色”。证据是j 或jb为真(1) ,但不能两者都真。这是对称的,因而根据证据ja和jb具有相(a) 等的可信性;换句话说,“d1 是白球”和“d1 是黑球”具有相等的可信性。同样的推理也适用于d2,d3,..dn。这样,就每个球的情况来说,白和黑的可信度是相等的。因此,象一次简单的计算所表明的那样,x 个白球的可信度是p(n,x),这里我们假定x 位于0 和n 之间,并包括0 和n 在内。我们可以看到在度量可信度上我们假定对于我们的知识来说,数据不仅为真而且还是全部有关的东西;换句话说,我们假定除了数据中所说的东西以外,我们就不知道任何有关的知识。所以就一个在特定时间的特定的人来说,一个特定命题的可信度只有一个正确的值,而在数学的概率论中,对于许多可能是完全假设性的不同数据来说,许多值却是同样合理的。在把数学的概率计算的结果应用到可信度上的时候,我们必须注意满足两个条件。第一,那些构成数学列举的基础的实例,根据证据来看必须都是同样可信的;第二,这个证据必须包括我们的全部有关知识。关于前一个条件,我们必须讲几句话。每一个数学的概率计算都从某种基本类开始,例如一块钱币的若干次翻转,一个骰子的若干次投掷,一副纸牌,一个口袋里所有的黑球。我们把这种基本的类的每个分子都作为一来看。由此我们构成其它从逻辑上引导出来的类,例如一块钱币的100 次翻转的n 个系列所组成的类。从这n 个系列中我们可以挑出那些由50 个正面和50 个背面所组成的次类。或者从一副纸牌开始,我们可以研究由可能分派出的牌组成的类——即13 张牌组成的一些选择——并进而探讨这些当中有多少包含同一组牌的11 张牌。问题在于计算出来的频率总能适用于具有某种根据这种基本类从逻辑上得以确定的结构的一些类,而为了这个问题的目的,我们把基本类看作由没有逻辑结构的分子组成;换句话说,它们的逻辑结构是无关宏旨的。只要我们只限于考虑频率的计算——即在数学的概率论的范围内——我们就能以任何一个类作为我们的基本类,并参照它来计算频率。作出一个认为这个类的全部分子都是同样可能的假定是不必要的;我们所需要说的只是:为了当前的目的,我们要把这一个类的每个分子看成一。但是当我们想确定可信度时就需要使我们的基本类由一些相对于证据来说都是同样可信的命题组成。凯恩斯提出“不可分性”的意图就在于保证这一点。我却愿意说基本类的分子必须具有“相对的简单性”;即它们必须不具有可以由数据来下定义的结构。拿一个口袋里的白球和黑球作例。事实上每个球都具有复杂到令人难以置信的结构,因为它由数以万计的分子所构成;但是这与我们的问题并没有什么关系。另一方面,一个从由n 个球组成的基本类中选择的m个球的集合却具有一种相对于这个基本类来说的逻辑结构。如果基本类的每个分子有一个名字,那么每个由m 项组成的次类就可以得到定义。所有概率计算都必须涉及到可以用基本类来下定义的类。但是基本类本身却必须由不能在逻辑上由数据来下定义的分子所组成。我认为当这个条件被满足时,无差别原理总是会被满足的。可是在这一点上我们却需要慎重。有两种方式可以使“a 是一个a”具有概然性,不是(1)因为确知a 属于一个大多数是a 的类,就是(2)因为a可能属于一个全部由a 组成的类。比方说,我们可以说“A 先生是有死的”,如果我们确知大多数人是有死的,或者如果我们有理由认为所有的人都是有