科学发现的逻辑-科学发现的逻辑-4

科学发现的逻辑-4

邻域选择之有可能是由于这个事实：在把元素排列为编号序列时，某些邻域关系就形成了。这使我们例如有可能选择那些其直接先行者具有性质γ的所有成员；或者比方说，选择那些其第一和第一个先行者，或其第一个后续者具有性质Y的所有成员，如此等等。因此如果我们有一个事件序列——比方说掷钱币猜正反面——，我们就必须区分两类性质：如“正面”或“反面”那样一些的主要性质，这些性质属于与其在序列中位置无关的每一个元素；以及如“偶数”或“反面的后续者”等那样一些次要性质，这些性质是一个元素由于它在序列中的地位而获得的。具有两个主要性质的序列称为“二择一”。正如von Mises业已表明的（如果我们小心仔细），有可能把概率论的基本点发展为二择一理论，而不牺牲普遍性。用“1”和“0”表示二择一的两种主要性质，每一种二择一可表示为许多1和0的序列。一种二择一的结构可以是有规律的，或者它也可能是多少不规则的。下面我将更周密地研究某些有穷二择一的这种规律性或不规则性。55．有穷序列的n-自由度让我们以有穷二择一α为例，它由一个个1和0组成，有规律地排列如下：（α） 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0……在这种二择一中，我们有均等的分布，即1和0的相对频率是均等的。如果我们用“F”（1）”示性质1的相对频率，用“F”（0）”示性质0的相对频率，我们可写：（1）αF”（1）＝αF”（0）＝1/2现在我们从α中选择（在α序列内）具有直接接在1后面的邻域性质的所有项。如果我们用“β”表示这种性质，我们可称为所选子序列“α·β“。它有这样的结构：（α·β） 1 0 1 0 1 0 1 0 1 0……这个序列又是具有均等分布的一种二择一。而且，1和0的相对频率都没有变化；即（2）α·βF”（1）＝αF”（1）；α·βF”（0）＝αF”（0）用第53节采用的术语，我们可以说二择一α的主要性质不受根据性质β作的选择的影响；简言之，α不受根据β作的选择的影响。由于α的每一个元素或具有性质β（即是1的后续者）或是0的后续者，我们可用“ ”表示后一性质。如果我们现在选择具有性质的元素，我们得到这样的二择一：（α· ） 0 1 0 1 0 1 0 1 0 1 0……这个序列离均等分布稍有偏差，因为它的始末都是0（因为均等分布a本身以“0’0”结尾）。如果a有2000个元素，那么α· 将有500个0，只有499个1。这些离均等分布（或其他分布）的偏差只是因第一个元素或最后一个元素而引起的，可通过使序列足够长而使这些离差变得如我们喜欢的那么小。由于这个理由在下面我们将置这些偏差于不顾；尤其是我们研究的是无穷序列，在那里这些离差就消失了。因此，我们说，二择一α·β有均等的分布，并且二择一α不受有性质的元素的选择的影响。结果，α，或更确切地说，α的主要性质的相对频率都不受根据β和根据作的选择的影响；所以我们可以说，α都不受根据直接先行者的性质所作的每一种选择的影响。显然，这种无影响是由于二择一α结构的某些方面所致；这些方面可把α与其他二择一区分开来。例如，二择一α．β和α．并非不受根据先行者的性质所作的选择的影响。现在我们可以研究二择一α，看看它是否也不受其他选择，尤其是根据一对先行者的性质所作的选择的影响。例如，我们可从α中选择那些是一对1，1的后续者的所有元素。并且我们马上看到α并非不受四种可能的对即1，1；1，0；01；0，0中任何一对后续者的选择的影响。在这些情况下，得到的子序列都没有均等分布；反之，它们全都由不间断的块（blocks，或“反复”iterations）组成，即只由1，或只由0组成。α不受根据单个先行者作的选择的影响，但是并非不受根据成对先行者的选择的影响，这个事实可用主观理论的观点表述如下。关于α中任何元素一个先行者性质的信息，对于这个元素的性质问题是无关的。另一方面，关于元素的成对先行者的性质的信息则是高度有关的；因为给定α据以建立的定律，它使我们能够预测所讨论的元素的性质：关于元素成对先行者性质的信息，可以说给我们提供演绎出预测所需的初始条件。（a据以建立的定律要求一对性质作为初始条件；因此就这些性质而言，它是“二维的”。详细说明一种性质仅是在成为复合时作为初始条件不充分时才是“无关的”。参阅第38节。）我没有忘记因果性——原因和结果——概念与预测的演绎的关系是多么密切，同时我要利用下列术语。以前作出的关于二择一α的断言：“α不受根据单个先行者作的选择的影响”，我现在用下列说法来表示：“α不受单个先行者任何后效的约束”，或简言之，“α的自由度为1（1－free）”。不像以前那么说α“不受（或受）根据成对先行者所作的选择的影响”，我现在说：“a不受（或受）成对先行者后效的约束”，或简言之，“α的自由度是（不是）2”。用自由度为1的二择一作为我们的原型，我们现在能够容易地建立也具有均等分布的其他序列，这些序列不仅不受一个先行者的后效约束，即（像α一样）自由度为1，而且还不受一对先行者后效的约束，即自由度为2；此后，我们可以继续达到自由度为3等等的序列。这样把我们引导到对下述是基本的一般概念。这就是不受直至某个数n的一切先行者后效约束的自由度概念；或者如我们将要说的，n-自白度概念。更精确地说，我们称一个序列“自由度为n”，当且仅当它的主要性质的相对频率是“n重无影响”，即不受根据单个先行者和根据成对先行者和根据三个一组的先行者……和根据n个一组先行者作的选择的影响。自由度为1的二择一α可以用重复任何倍数的生成周期（generating period）。（A） 1 1 0 0……来建立。同样我们获得具有均等分布的自由度为2的二择一，如果我们把（B） 1 0 1 1 1 0 0 0……作为它的生成周期，自由度为3的二择一从生成周期（C） 1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0……中获得，而自由度为4的二择一从生成周期（D） 0 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 1……中获得。将会看到：面临一个不规则序列的直觉印象随它n自由度的数n的增长而越强烈。具有均等分布的一个具n自由度的二择一的生成周期必须包含至少2n＋1个元素，作为例子给定的周期，当然可以开始于不同的位置；（C）例如可从它的第四个元素开始，于是我们获得的不是（C），而是（C’） 1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1……有使序列的n-自由度不变的其他变换。为每一个数目n建立n-自由度序列生成周期的方法则在别处描述。如果我们把下一生成周期的最初的n个元素加在一个自由度为n的二择一上，于是我们得到一个长度为2[n＋1]＋n的序列。除了其他性质外，这个序列还有以下的性质：n＋1个0和1的每一种排列，即每一个可能的n＋1个组，至少在其中发生过一次。56．节段序列二项式的第一形式给定一个有穷的序列α，我们称由n个连续元素组成的α的子系列为‘’α的n长度节段”；或更简单地说，“α的n-节段”。如果除了序列α以外，还给定某个定数n，那么我们能够把α的n-节段排列在一个序列中——α的n-节段序列。给定一个序列α，我们就可以从α的最初的n个元素的节段开始这种方式，建立一个新的序列，即α的n-节段序列。其次是α的2到n＋1的元素的节段。一般地说，我们把α的从x到x＋n－1的诸元素组成的节段看作新序列的第x个元素。如此获得的新序列可称为“α的交迭n-节段（overlapping n一segments）序列”。这个名称表示，新序列的任何两个连续元素（即节段）以这种方式交迭；使它们共有原先序列α的n－1元素。现在我们通过选择可以从一个交迭节段的序列中，获得其他序列，尤其是毗邻n-节段（adjoining n-segments）的序列。一个毗邻n-节段序列只含这样一些n-节段，它们在不交迭的α中，互相直接接续。例如开始也许是原先序列α的编号为1至n的元素的n-节段，续在后面的是n＋1至2n，2n＋1至3n如此等等的元素的n-节段。一般来说，一个毗邻节段的序列将以α的第k个元素开始，而它的节段将包含α的编号为直至n＋k－1，n＋k至2n＋k－1，2n＋k至3n＋k-1如此等等的元素。下面将用“α（n）”示α的交迭n-节段的序列，用“αn”示毗邻n-节段序列。现在让我们更详细一点考虑交迭节段α（n）的诸序列。这样一种节段的每一个元素是α的一个n－节段。我们可以把例如组成节段的n个一组的有序的0和1看作是α（n）一个元素的主要性质。或者我们可以更为简单地把它的1的数目看作是这个元素（不管1和0的次序）的主要性质。如果我们用“m”表示1的数目，则显然m≤n。现在我们又从每一个序列α（n）得到一个二择一。如果我们选择一个特定的m（m≤n），并将性质“m”赋予序列α（n）的正好有m个1（所以有n－m个0）的每一个元素，并且把性质“ ”（非m）赋予α（n）的所有其他元素的话。因此α（n）的每一个元素必定有这两个性质中的一个或另一个。现在让我们再次设想，给定一个具有主要性质“1”和“0”的一个有穷二择一。设1的频率αF”（1）等于p，0的频率αF”（0）等于q。（我们设分布是不均等的，即p≠q。）现在让这个二择一α至少有n－1个自由度（n是任意挑选的自然数）。于是我们可向下列的问题：性质m在序列α（n）中出现的频率是多少？换言之，α（n）F”（m）的值是多少？除了α至少有n－1个自由度外，我们什么也不假定，我们就能用初等算术解决这个问题。答案包含在下列公式中：（1）α（n）F”（m）＝“二项”式（1）的右边是由Newton在论述有关别的问题时提出的（有时称为Newton公式）。我将称它为“二项式的第一形式”。由于推导出了这个公式我就不再在有穷参考类内考察频率理论。这个公式将提供给我们一个基础来讨论随机公理。57 无穷序列频率的假说性估计把为n－自由度有穷序列获得的结果推广到用生成周期（参阅第55节）定义的n－自由度无穷序列是十分容易的。起着参考类（我们的相对频率与此有关）作用的一个无穷的元素序列可称为“参考序列”。它多少与von Mises意义上的“集合”相对应。n－自由度的概念以相对频率的概念为前提；因为n－自由度的定义要求不受影响——不受根据一定的先行者所作的选择的影响——的是一种性质在其中发生的相对频率。在我们讨论有穷序列的定理中，我将暂时使用（直到第64节）相对频率极限值（用F’表示）概念代替有穷类的相对频率（F”）。只要我们把自己限于根据某个数学规则建立的参考序列，这个概念的使用就不会发生问题。对于这些序列我们总可以确定相应的相对频率序列是否是收敛的。相对频率极限值概念只是在没有数学规则只有经验规则（与例如钱卜序列有关的）的序列的情况下才会引起麻烦；因为在这些情况下，极限值概念是未定义的（参阅第51节）。建立序列的数学规则的一个例子如下：“序列α的第n个元素应该是0，当且仅当n可被4除”。它定义的无穷二择一是（α） 1 1 1 0 1 1 1 0……其相对频率的极限值αF’（1）＝3／4； αF’（0）＝1／4。借助数学规则用这种方法定义的序列我简称为“数学序列”。与之相对照，建立经验序列的规则是例如“序列α的第n个元素将是0，当且仅当硬币c的第n次掷猜出现反面时”。但是经验规则不一定总是定义随机性质的序列。例如，我应该把下列规则称为经验规则：“序列的第n个元素将是1，当且仅当第n秒（从某个零时算起）时，发现摆p摆到这标记的左方时”。这个例子表明有时——例如根据与摆有关的一些假说和测量——可用数学规则代替经验规则。用这种方法我们会找到一个数学序列，它以按我们的目的也许使我们满意，也许不能使我们满意的精确度接近于我们的经验序列。有可能（我们的例子可用来建立这种可能）获得一个其各种频率接近于那些经验序列的频率，在我们目前的情况下具有特殊的意义。我把序列分为数学序列和经验序列时，我利用的是“内包”上的差别，不是“外延”上的差别。因为如果用“外延”方法，即用一个接一个地列举其元素的方法使我们得一个序列－－因此我们就只能知道它的一个有穷的片段，一个有穷的节段，不管它有多长——，那么就不可能根据这个节段的性质确定其一部分的序列是学序列还是经验序列。仅当给定一个建构规则——即“内包”规则—一时，我们就能判定一个序列是否是数学的还是经验数的。由于我们希望借极限值（相对频率）概念之助处理我们的无穷序列，我们必须把我们的研究限于数学序列，实际上就是限于相应的相对频率序列是收敛的那些数学序列。这种限制等于引入收敛公理。（与这公理有关的问题到第63－66节再讨论，因为与“大数定律”一起讨论它们比较方便。）因此我们将只谈数学序列。然而我们将只谈那些数学序列：我们期望或推测它们就频率而言接近于具有似机遇或随机性质的经验序列，因为它们是我们的主要兴趣所在。但是期望或推测一个数学序列，就频率而言它接近于经验序列，不过是提出一个假说——一个关于经验序列频率的假说。我们对经验随机序列的频率的估计是假说这一事实，对我们用以计算这些频率的方法没有任何影响。显然，在有穷类方面，它对我们如何获得我们的计算由此开始的频率，丝毫没有关系。这些频率可借实际计算获得，或根据一条数学规则，或根据某种假说获得。或者我们简直可以虚构一些频率。在计算频率时我们接受某些频率作为给定的，并从中推导出其他频率。无穷序列中的概率估计同样如此。因此关于我们频率估计的来源问题不是一个频率计算问题；然而这并不是说把这个问题从我们关于概率论问题的讨论中排除出去。在无穷经验序列的情况中，我们能区分出我们假说性频率估计的两种主要“来源”——就是说两种方法，我们用这两种方法就可估计出频率。一是基于“均等-机遇假说”（equal chance hypothesis），（或等概率假说equi－probability hypothesis）的估计，另一是基于统计结果的外推（extrapolation of statisticalfndings）。我用“均筹-机遇假说”，是指这样一种假说，它断言各种主要性质的概率是均等的：它是断言均等分布的假说。均等-机遇假说常常基于对称性的考虑。最典型的例子是掷骰子时均等频率的推测，其根据是立方体六面的对称性和几何等值。至于基于统计学外推的频率假说，死亡率的估计提供一个很好的例子。在这里关于死亡率的统计资料是用经验查明的，并且根据过去的趋势将继续足十分接近稳定的，或者它们不会有很大变化——至少在最近时期内——的假说从已知事例，即从已用经验加以分类和计算的偶发事件外推到未知事例。具有归纳主义倾向的人容易忽视这些估计的假说性质，他们会把假说性估计，即基于统计外推的频率预测同它们的经验“来源”之——过去的偶发事件和偶发事件序列的分类与实际计算混为一谈。往往提出这样的主张；我们从已加以分类和计算的过去的偶发事件（如死亡统计）中“推导出”概率估计——即频率预测。但是从逻辑观点看，这个主张并没有得到证明。我们根本没有作什么逻辑推导。我们已经做的是提出一个不可证实的假说，这个假说在逻辑上是永远得不到证明的，这个假说就是推测频率仍将稳定不变，因此允许外推。甚至均等-机遇假说也被一些相信归纳逻辑的人认为是“经验上可推导的”，或“经验上可说明的”，他们认为这些假说基于统计经验，即基于经验上观察到的频率。然而就我来说，我相信，我们在作出这种假说性估计时，往往单独爱关于对称意义的想法以及类似的考虑的引导。我看不出有任何理由为什么这些推测应该只是由于积累大量归纳观察而产生的。然而，我并不赋于我们估计的起源或“来源”这些问题以很大意义（参阅第2节）。我认为，更重要的是对这个事实要十分清晰，即频率的一切预测性估计，包括我们从统计外推中得到的频率——当然还有所有与无穷经验序列有关的频率——总是纯粹的推测，因为它总是超出我们有权根据观察肯定的任何东西。我对均等－机遇假说和统计外推的区分与“先验”和“后验”概率的经典区分是完全符合的。但是由于这些术语是用于如此多的不同意义。而且由于这些术语因哲学上的联想而被严重玷污，最好还是避免用它们。我在下面考察随机公理时，将试图寻找逼近随机经验序列的数学序列；这就是说我将考察频率假说。58 随机公理的考察顺序选择（即按位置选择）的概念和邻域选择的概念均已在第55节中引入和说明。我现在将借助这些概念检查vonMises的随机公理——排除赌博系统原理——以希望找到一个能代替这个公理的较弱的要求。在von Mises的理论中，这个公理是他的集合概念的定义的一部分：他要求一个集合中频率的极限一定要对任何种类的系统选择（systematic Selection）不敏感（他指出，赌博系统总是可被认为是一种系统选择。）。对这个公理提出的大多数批评集中于它的表述的相对不重要的和表面的方面。这与下列事实有关，即在各种可能的选择中，会有这样的选择：比方说选择那些接近5的掷；显然在这种选择内，5的频率会与在原先序列内5的频率迥然不同。这就是为什么von Mises在他的随机公理表述中谈到他所说的“选择”或“选取”是“独立于”掷的“结果”，因而不用所选元素的性质去定义。但是只要指出我们可以根本不用成问题的措词来表述von Mises的随机公理，就可以完全答复针对这种表述的许多非难。因为例如我们可以表述如下：在一个集合中频率的极限一定都不受顺序选择和邻域选择的影响，而且也不受可用作赌博系统的这两种选择方法的所有组合的影响。上述困难随这个表述而消失。然而其他困难仍保留。因此也许不可能证明，借助如此强的随机公理定义的一个集合概念，不是自相矛盾的；换言之，不可能证明“集合”的类不是空的。（Kamke曾强调证明这一点的必要）至少，建构某个集合的例子，并用这种方式说明集合的存在，这似乎是不可能的。这是因为满足一定条件的某一无穷序列的例子只可能由数学规则来提供。但是对于von Mises意义上的集合，根据定义不可能有这种规则，因为能够把任何规则都用作一种赌博系统或选择系统。如果所有可能的赌博系统都被排除，这种批评确实是无法驳斥的。然而也可提出另外的异议来反对排除所有赌博系统的概念：它的要求实在太多了。如果我们要使某个陈述系统公理化——在这个场合是概率计算定理，尤其是特殊的乘法定理或Bernoulli定理——，那么所选的公理不仅应该对系统定理的推导是充分的，而且也是（如果我们能这样推导出定理）必要的。然而可以表明排除所有选择系统对Bernoulli定理及其系统定理是不必要的。要求排除特殊类的邻域选择是十分充分的：它是以要求序列应该不受根据任意选取的n个一组的先行者所作的选择的影响；也就是说，它应该有n个自由度，不受每个n的后效的约束，或简言之，它应该是“绝对自由的。”所以我建议用不那么严格的“绝对自由”的要求（对每一个n有n-自由度的意义上）来代替von Mises的排除赌博系统原理，并且相应地把似机遇的数学序列定义为满足这个要求的序列。其主要优点是不排除所有赌博系统，因此有可能提供建构在我们的意义上“绝对自由的”序列的数学规则，从而有可能建构实例。因此也就满足了上面讨论的Kamke的异议。因为我们现在能够证明似机遇数学序列的概念不是空的，所以是前后一致。也许有点奇怪：我们应该试图借助必须符合最严格规则的数学序列来勾划机遇序列极不规则的特点。von Mises的随机公理起初似乎使我们的直觉更为满意。一个机遇序列必定是完全不规则的，因此只要我们继续努力试图通过把这个序列延伸得足够长来证伪这个推测的话，任何推测的规则性一定会在序列的后面部分遇到失败，知道这一点是颇为令人满意的。但是这个直觉的论证也有利于我的建议。因为如果机遇序列是不规则的，那么，不容置疑，它们就不会是某种特殊类型的规则序列。而我们的“绝对自由”要求不过是排除一种特殊类型的规则序列，尽管是一种重要的类型。它是一种重要的类型这一点可以从这个事实中看出，即根据我们的要求不言而喻地排除下述三种典型的赌博系统（参阅下一节）。首先我们排除“正态的”或“纯粹的”邻域选择，在其中我们根据邻域的某种恒定的特征进行选择。其次，我们排除“正态的”顺序选择，这种选择选取的元素，它们的间距是恒定的，例如标号为是k，n＋k，2n＋k……等等的元素；最后，我们排除这两种类型选择的许多组合（例如一切第n个元素的选择，假如它的邻域具有某种具体的恒定特征）。所有这些选择的独特性质是，它们与序列的绝对的第一元素无关；如果原先的序列从另一个（相应的）元素开始标号，它们就可产生同样的所选的子序列。因此被我的要求排除的赌博系统是那些无需知道序列的第一元素而可使用的赌博系统。被排除的系统总涉及某些（线性）变换。它们是简单的赌博系统。（参阅第43节）。我的要求不予排除的只是涉及诸元素与绝对的（初始的）元素间有绝对距离的赌博系统。对一切n有自由度n——“绝对自由”——的要求也与我们大多数自觉地或不自觉地认为对机遇序列也适用的东西完全一致；例如一粒骰子下一次掷的结果不依赖以前几次掷的结果（掷以前摇摇骰子的做法就是想要保证这种“独立性”）。59．似机遇序列客观概率鉴于我已说过的那些东西，我现在提出下列定义。我们说一个事件序列或性质序列，尤其是一个二择一，是“似机遇”或“随机的”，当且仅当它的主要性质的频率极限是“绝对自由的”，即不受根据任何n个一组的先行者的性质所作的一切选择的影响。与随机的序列相应的频率极限被称为在有关序列内该性质的客观概率；用F表示。这也可表述如下。设α为具有主要性质B的似机遇或似随机序列；这时下式成立：αF（β）＝αF’（β）现在我们必须证明我们的定义足以推导出数学概率论的主要定理，尤其是Bernoulli定理。随后——在第64节——这里给定的定义将予以修改使之独立于频率极限的概念。60．Bernoulli问题在第56节提到的第一个二项式公式，即（1）α（n）F”（m）＝适用于交迭节段的有限序列。它可根据这样的假定推导出来，即有限序列α至少有n－1个自由度。根据同样的假定，我们直接获得一个有限序列的正好相应的公式；那就是说，如果α是有限的，并且至少有n－1个自由度，那么（2）α（n）F’（m）＝由于似机遇序列是绝对自由的，即对于每一个n有n个自由度，公式（2），即第二个二项式公式也必须适用于那些序列；并且确实它必须适用于它们，不管我们选择的n的值是多少。下面我们将只涉及似机遇序列，或随机序列（如在前节中定义的那样）。我们就要证明，对于似机遇序列，除了公式（2），第三个二项式公式（3）也必定适用；这个公式是（3）αnF（m）＝公式（3）在两个方面不同于公式（2）：第一，它所断言的涉及毗邻节段αn的序列，不是交迭节段α（n）的序列。第二，它不包含符号F’，而包含符号F。这意味着，根据蕴涵它断言邻近节段序列也是似机遇或随机的；因为从F，即客观概率的定义仅涉及似机遇序列。（3）所回答的在邻近节段序列中性质m的客观概率问题——即αnF（m）的值的问题——，我效法von Mises，称之为“Bernoulli问题。对于这个问题的解决，从而对于第三个二项式公式（3）的推导，假定α是似机遇或随机的也就够了。（我们的任务等于说明特殊的乘法定理适用于一个随机序列α的毗邻节段序列。）公式（3）的证明可用两步实现。首先，我们证明公式（2）不仅适用于交迭节段α（n）的序列，而且也适用于毗邻序列αn的序列。第二，我们证明后者是“绝对自由的”。（这两步的次序可以颠倒，因为交迭节段α的序列肯定不是“绝对自由的”；事实上，这种序列提供了一个可称之为“具有后效的序列”的典型例子。）第一步。毗邻节段αn的序列是α（n）的子序列，它们可通过正态顺序选择从α（n）中获得。因此如果我们能证明在交迭序列α（n）F’（m）中频率的极限不受正态顺序选择的影响，我们就是已经采取了第一步（以及甚至走得更远一点）；因为我们将证明这个公式：（4） αnF’（m）＝α（n）F’（m）我将首先以n＝2为例概述这个证明；即我将证明（4a） α2F’（m）＝α（2）F’（m）（m≤2）为真；因此很容易概括这个公式以适用于一切n。从交迭节段α（2）的序列中，我们能够选择毗邻节段的两个以及仅仅两个不同的节段α（2）；一个用（A）表示，包含α（2）的第一，第三，第五……节段，即由数1，2；3,4；5，6；……组成的α的元素对另一个用（β）表示，包含α（2）的第二，第四，第六，……，节段，即由数2，3；4，5；6，7；……等组成α的元素对。现在假定公式（4a）不适用于两个序列中的一个，（A）或（B），结果节段（即对）0，0太经常出现在比方说序列（A）中；于是在序列（B）中必须出现一个余离差（complementary deviation）；即节段0， 0将不很经常出现（“太经常”，或“不很经常”是与二项式公式相比较而言的）。但是这与所假定的α的“绝对自由”是矛盾的。因为如果0，0对在（A）中出现比在（B）中更经常，那么在α的足够长的节段中，0，0对在某些表示特征的间距内出现比在其他间距内出现更经常。如果0，0对属于两个α2序列中的一个，更为经常出现的间距就是那些占优势的间距，如果0，0对均属于两个α2-序列，不那么经常出现的序列就是那些占优势的序列。但是这与所假定的α的“绝对自由度”是矛盾的；因为根据第二个二项式公式，α的“绝对自由度”意味着，在任何α（n）序列中一个特定的长度为n的序列出现的频率只依赖在该序列中出现的1和0的数目，而不是依赖它们在序列中的排列。这证明（4a）；由于这个证明能容易推广到任何n，（4）也就得到证明；这就完成了证明的第一步。第二步。αn序列是绝对自由的这一事实可用一个类似的论据来说明。我们仍可以首先只考虑α2序列；而就这些序列而言，开始只会证明它们的自由度为1。设两个α2序列中的一个，即节段（A）并不是自由度为1。那么在（A）中，在至少由两个元素（一个特定的α对）组成的一个节段之后，比方说在0，0节段之后，另一个节段比方说1，1，必须比如果（A）是“绝对自由的”时更为经常地跟随着；这就是说，节段1，1出现在根据先行节段0，0从（A）中选择的子序列中的频率比二项式公式使我们期望更大。然而，这个假定与序列α的“绝对自由度”是矛盾的。因为如果节段1，1在（A）中跟随节段0，0过分经常，那么通过补整（compensation），相反情况也必须出现在（B）中；因为否则四个一组0，0，1，1在α的一个足够长的节段中，会太经常地出现在某些特征性间距内——即在如果所说的两对属于同一α2序列就会占优势的那些间距内。此外，在其他特征性间距内，四个一组会不那么经常地出现——即在那些如果它们均属于两个α2序列就会占优势的间距内。因此我们面临的正好是与以前同样的情况；而且我们能用类似的考虑证明，假定事件在一些特有的间距内优先发生，是所假定的α的“绝对自由度”是不相容的。这个证明又可加以推广，结果我们可以说α序列不仅自由度为1，而且对每一个n，自由度为n，因而它们是似机遇的，或随机的。这就完成了我们对这两步的概述。因此我们现在有权在（4）中用F代替F’；这就是说，我们可以同意这个主张：第三个二项式公式解决了Bernoulli问题。顺便说一句，我们已证明交迭节段的序列α（n）不受正态顺序选择的影响，只要α是“绝对自由”时。这同样适用于毗邻节段序列αn，因为从αn中作的任何一个正态顺序选择可被认为是从α（n）中作正态顺序选择；所以它必须应用于序列α本身，因为α与α（1）和α1都是等同的。因此我们也还证明了，不受正态顺序选择的影响是从“绝对自由度”——它意指不受某一特殊类型的邻域选择的影响——中得出的必然结论。容易看出，更进一步的结论是不受任何“纯”邻域选择（即根据它的邻域的某个恒定的特征——不随元素序数而变化的特征——进行选择）的影响。最后它的必然结论是“绝对自由度”蕴含着不受这两类选择的所有组合的影响。61．大数定律（Bernoulli定理）在假定我们能使n趋向极限。即n→∞的条件下，Bernoulli定理，或（第一）“大数定律”可以用纯粹数学的推理从第三个二项式方式中推导出来。所以它能断言的只是无限的序列α；因为正是仅仅在这些序列中αn-序列的n-节段长度能无限增加。并且它能断言的只是这些“绝对自由”的序列，因为正是仅在假定对每一个n自由度为n的条件下，我们能使n趋向极限，n→∞。Bernoulli定理提供了十分类似我曾（效法von Mises）称为“Bernoulli问题”的一个问题，即αnF（m）的值的问题的解。正如第56节所表明的，一个n-节段可说具有性质“m”，当它正好含有m个1时；因此在这个（有穷）节段内1的相对频率当然是m／n。我们现在可定义：α的一个n-节段有性质“△p”当且仅当它的1的相对频率与αF（1）＝p的值，即1在序列α中的概率的离散不超过δ；这里δ是我们任意选取的接近于0的任何小的分数（但不同于0）。我们能用下列说法表示这个条件：一个n节段有性质“△p”，当且仅当[ -p]＜δ时；换言之，节段具有性质‘△p’。现在Bernoulli定理回答了频率或概率值的问题，在αn序列内这种节段——具有性质△p的节段的值的问题；因此它回答了αnF（△p）值的问题。人们在直观上可以猜测：如果值δ（δ＞0）是固定的，如果n增加，那么具有性质△p的这些节段的值，因此αnF（△P）的值，也将增加（并且它的增加将是千篇一律的）。Bernoulli的证明（在任何一本概率计算教科书中都可以找到这种证明）接着下去便是借助二项式公式来评价这种增加。他发现如果n的增加没有极限，αnF（△P）值便逼近最大值1，不管&的固定值有多少。这可用下式来表示。（1） F（△p）＝1 （对任何△p值）这个公式从改变毗邻节段序列的第三个二项式公式而来。对于交迭节段的序列，类似的第二个二项式公式用同样的方法直接导附相应的公式。（2） F’（△p）＝1这个公式对于交迭节段序列以及从它们之中作正态顺序选择是正确的，因此对于具有后效的序列（Smoluchowski曾研究过这些序列）也是正确的。公式（2）本身产生（1），假如所选的序列不交迭，所以自由度为n。（2）可描述为Bernoulli定理的一种变式；而我在这里将要就Bemoulli定理所说的话经过必要的修正（mutatis mutandis）以适用于这种变式。Bernoulli定理，即公式（1），可用下面的话表示。让我们称从一随机序列α中选择的长度固定的一个长的有穷节段为一“中等样本”（fair sample），当且仅当在这个节段内1的概率，即在随机序列内1的概率值与p的离差只有某一小的固定的分数（我们可以自由挑选这个分数）。因此我们可以说，只要我们使这些节段有足够长，偶然碰到一个中等样本的概率如我们所喜欢的那样逼近于1。在这个表述中，“概率”（或“概率值”）一词出现两次。在这里如何解释或翻译它？在我的频率定义的意义上，这词不得不翻译如下（我将“概率”一词译为频率语言的两种译法用黑体表示）：所有足够长的有限节段中绝大多数有“中等样本”；即它们的相对频率与该随机序列频率值p的离差为一任意固定的很小的量；或简言之：频率p近似地实现在几乎所有足够长的节段中。（我们如何达到p值与我们现在的讨论是无关的；比方说它可以是一种假说性估计的结果。）记住Bernoulli频率αnF（△p）一成不变地随节段的长度n的增加而增加，一成不变地随n的减少而减少，所以，相对频率值在短的节段中实现是比较罕见的，我们也可说：Bernoulli定理说明，“绝对自由的”或似机遇的序列的短节段经常表现在与p有比较大的离差，因此有比较大的涨落，而较长的节段，在大多数情况下，将表现出随长度的增加与P的离差越来越小。结果，在足够长的节段中大多数离差将变得如我们希望的那样小；换言之，大的离差将变得如我们希望的那样罕见。因此，如果我们取随机序列的一个十分长的节段，为了通过计算或也许利用其他的经验的和统计的方法，求在它的子序列内的频率，那么在大多数情况下我们将得到如下结果。有一个特征性平均频率，使整个节段中以及几乎所有的长的子序列中，相对频率与这个平均值的离差很小，如果我们挑选的子节段越短，较小的子节段的相对频率与这个平均值的离差就越大和越经常，这个事实，即有穷节段这种可在统计学上得到确定的行为，系指它们的“拟收敛行为”；或系指这样的事实：随机序列在统计学上是稳定的。因此，Bernoulli定理断言，似机遇序列的节段较小，经常表现为大的涨落，而大节段总表现恒定或收敛；简言之，我们在小节段中发现无序和随机，在大节段中发现有序和恒定。“大数定律”式所指的正是这种行为。62．Bernoulli定理和概率陈述的解释我们刚刚看到，用言语表述的Bernoulli定理中“概率”一词出现了两次。频率理论家在两种情况下根据它的定义翻译这个词没有困难：他能对Bernoulli定理和大数定律提供一个清楚的解释。主观理论的拥护者也能以它的逻辑形式做到这一点吗？想把“概率”定义为“理性信仰程度”的主观理论家，当他把“……的概率如我们希望的那样逼近1”这些话解释为“……几乎是确定无疑的”时，他前后完全一致，并且有权这样做。但是当他继续说：“……相对频率与它最可几的值p 的离差小于一定量……”，或用Keynes的话说，“事件出现的比例与最可几的比例p的离散小于一定量……”时，他只不过模糊了他的那些困难。这听起来似乎蛮有道理，至少乍一听来是这样。但是如果在这里我们也把“可几的”（有时省略）一词，用主观理论的意义加以翻译，那么整个问题变成这样：“相对频率与理性信仰程度p值的离差小于一定量几乎是确定无疑的，”我认为这是十足的废话。因为相对频率只能与相对频率作比较，只能与相对频率有离差或没有离差。很清楚，在演绎Bernoulli定理之后，把一个不同于演绎之前给予p的意义给予它是不允许的。因此我们看到主观理论不能用统计学的大数定律来解释Bernoulli定理。统计定律的推导只有在频率理论的框架内才有可能。如果我们从严格的主观理论出发，将永远达不到统计陈述——即使努力填补同Bernoulli定理之间的鸿沟也不能达到。63.Bernoulli定理和收敛问题从认识论观点看，我对上述大数定律的演绎是不满意的；因为收敛公理在我们的分析中所起的作用是很不清楚的。实际上通过把我的研究限于具有频率极限的数学序列已不言而喻地引入了这类公理（参阅第57节）。结果甚至容易使人认为我们的结果——大数定律的推导——是无关紧要的；因为“绝对自由”的序列在统计学上是稳定的这一事实可被认为是它们的收敛所蕴含的，而它们的收敛如果不是不证自明也是不言自明地被假定的。但是正如von Mises已清楚地表明的那样，这个观点是错误的。因为有些序列满足收敛公理，虽然Bernoulli定理对它们不适用，因为具有频率接近1的任何长度的节段，出现在与p有一定程度离散的频率中。（极限p在这些情况下的存在是由于这个事实：虽然离散可无限增加，但它们相互抵销。）这些序列看起来仿佛它们在任意大的节段中是发散的。即使相应的频率序列事实上是收敛的。因此大数定律根本不是收敛公理的无关紧要的推断，而且，这个公理对于推导大数定律完全不充分。这就是为什么我对随机公理的修改，“绝对自由”的要求是不可缺少的。然而，我们的理论重建，提示了这样一种可能性：大数定律也许是独立于收敛公理的。因为我们已经看到，Bernoulli定理是直接从二项式公式中得出的；此外，我已证明，可为有穷序列推导出第一个二项式公式，因此当然无需任何收敛公理。还必须假定的一切是参考序列α的自由度至少是n－1；这是一个从中得出特殊乘法定理的可靠性以及第一个二项式公式的可靠性的假定。为了过渡到极限，为了获得Bernoulli定理，只需假定我们使n如我们希望的那样大。因此就能看出，Bernoulli定理大概是对的，即使对于有穷序列也是如此，如果对于一个足够大的n它们的自由度为n的话。所以看来Bernoulli定理的演绎并不依赖于假定频率极限存在的公理，而是仅依赖于“绝对自由度”或随机性。极限概念仅起次要的作用：它用来把相对频率的概念（在第一个例子中给它下定义只是为了有穷类，没有它，n-自由度的概念就不能提出）应用于能无限延伸的序列。此外，不应忘记，Bernoulli本人是在经典理论的框架内演绎他的定理的，这个理论不包含收敛公理；也不应忘记，作为频率极限的概率定义只是经典形式体系的一种解释——而且不是惟一可能的一种解释。我将试图用除n－自由度（应适当地加以定义）外无需假定任何东西就可推演出这个定理来证明我的推测——Bernoulli定理独立于收敛公理。并且我将试图证明它甚至适用于其主要性质并不具有频率极限的那些数学序列。只要能够证明这一点，我就会认为我之推演出大数定律从认识论家的观点来看是令人满意的。因为似机遇经验序列证明，我已描述为“收敛”或“统计学上稳定的”那种特殊行为，是一个“经验事实”——或至少有时人们这样告诉我们（参阅第61节）。通过用统计方法记录长节段的行为，人们能够确定相对频率越来越逼近一个限定的值，相对频率在其中涨落的间隔变得越来越小。对这种所谓的“经验事实”，已进行过如此多的讨论和分析，确实往往认为它是大数定律的经验验证，对这种“经验事实”可以从不同角度来看。具有归纳主义倾向的思想家大多数认为它是基本的自然律，不能还原为任何更简单的陈述；认为它是必须完全加以接受的我们世界的特性。他们认为以适当形式——例如以收敛公理的形式——表示的这个自然律应该作为概率论的基础，从而使概率论具有一门自然科学的性质。我对这种所谓“经验事实”的态度是不同的。我倾向于认为，它可还原为序列的似定律性质；可从这些序列的自由度为n的事实中推导出来。我认为Bermoulli和Poisson在概率论领域的成就正是在于他们发现了一种方法以表明这种所谓“经验事实”是重言式，表明从小规模的无序（假如它满足表述得合适的n－自由度条件）合乎逻辑地得出一种大规模的稳定性秩序。如果我们能够无需假定收敛公理而演绎出Bernoulli定理，那么我们就可把大数定律的认识论问题还原为一个公理独立性问题，因而还原为一个纯粹的逻辑问题。这种演绎也说明为什么收敛公理在各种实际应用（试图计算经验序列的近似行为）中起了很好的作用。因为即使对收敛序列的限制结果弄清是不必要的，利用收敛数学序列来计算经验序列的近似行为（它根据逻辑上的理由在统计学上是稳定的）肯定不是不合适的。64．收敛公理的排除“机遇理论基本问题”的解决迄今频率极限除了具有提供一个可应用于无穷序列相对频率的明确概念外，在我们的概率论的重建中没有其他功能，因此我们可以借助它来定义（不受后效约束的）“绝对自由度”。因为正是相对频率被要求不受根据先行者作出选择的影响。我们早就把我们的研究限制在具有频率极限的二择一，因此不言而喻地引入了收敛公理。现在，为了使我们摆脱这个公理，我将摆脱这个限制，而不用任何其它限制来代替它。这就是说我将不得不建构一个频率概念，它能接管被排除的频率极限的功能，并可应用于所有的无穷参考序列。满足这些条件的一个频率概念是相对频率序列聚点的概念。（如果在任何给定的元素之后有一些与α的离差小于一定量，即使这个量很小，就说α值是某一序列的聚点。）这个概念可不加限制地应用于所有无穷序列，这一点可从这个事实中看出，即对于每一个有穷的二择一，与之相应的相对频率序列中必有至少一个这样的聚点存在。由于相对频率决不可能大于1，也不可能小于0，相对频率序列必定由1和0连结起来。而且作为一个无穷的连结起来的序列，它必须（根据著名的Bolzano和Weierstrass）至少有一个聚点。简而言之，与一个二择一α相应的相对频率序列的第一个聚点被称为“α的中频率（midddle frequency）”。因此，我们可以说：如果一个序列α有一个并且只有一个中频率，那么同时这就是它的频率极限；反之亦然：如果它没有频率极限，那么它就有不止一个中频率。将会发现中频率概念十分适合于我们的目的。正如前面p 是序列α的频率极限这一点是我们的估计——也许是假说性估计——一样，我们现在也可以使用p是α的中频率这一估计。而且假如我们采取必要的预防措施，我们能够借助这些估计的中频率进行计算，类似我们用频率极限计算一样。此外，中频率概念可应用于所有可能的无穷参考序列，没有任何限制。如果我们现在试图把我们的符号αF’（β）解释为中频率，而不是频率极限，并且我们因而改变客观概率的定义（第59节），我们的公式大多数仍然是可推导的。然而有一个困难：某一中频率不是惟一的。如果我们估计或推测一个中频率是αF’（β）＝p ，那么这不排除αF’（β）有除了p以外的值。如果我们假定这并非如此，那就不言而喻要引入收敛公理。如果在另一方面，我们定义客观概率无需这种具有惟一性的假定，那么我们就获得（至少在第一个例子中）一个模棱两可的概率概念；因为在某些条件下一个序列可同时拥有都是“绝对自由的”若干中频率。但是这是难以接受的，因为我们习惯于用不含糊的或惟一的概率；也就是假定在同一参考序列内对于同一性质，可能有一个，并且只可能有一个概率p。然而，无需极限公理定义惟一的概率概念的困难是容易克服的。我们可引入惟一性要求（毕竟是最自然的程度）作为最后一步，在假定了序列将是“绝对自由的”以后。这使我们对我们的似机遇序列定义以及客观概率定义提出下列修改作为对问题的一种解决办法。设α为一个二择一（有一个或数个中频率）。设α的1有一个或只有一个“绝对自由的”中频率p；于是我们说α是似机遇或随机的，并且p是1在α内的客观概率。这有助于把这个定义分为两个公理性要求。（1）随机性要求：对于似机遇的二择一，至少必须有一个“绝对自由的”中频率，即它的客观概率p。（2）惟一性要求：对于同一似机遇的二择一的同一性质，必定有一个且只有一个概率p。前面建构的实例保证了这个新公理系统的无矛盾性。有可能建构不具有频率极限的序列，虽然它们有一个且只有一个概率。这表明新的公理要来实际上比老的更广泛，更不确切。如果我们以下列形式陈述（如我们可以陈述的那样）我们的老公理，这个事实甚至会变得更加明显：（1）随机性要求：如上。（2）惟一性要求：如上。（2’）收敛公理：对于同一似机遇二择一的同一性质除了它的概率p外不存在其他中频率。我们可从建议的要求系统中演绎出Bernoulli定理，以及同它一起的经典概率计算定理。这就解决了我们的问题：现在有可能在频率理论的框架内演绎出大数定律，而无需利用收敛公理。此外，不仅第61节公式（1）和Bernoulli定理的文字表述仍然不变，而且我们给予它的解释也仍然不变：在一个没有频率极限的似机遇序列情况下，几乎所有足够长的序列表明与p只有小的离差，这仍然是正确的。在这些序列中（正如在有频率极限的似机遇序列一样）具有拟发散行为的任何长度的节段，也就是与p的离差有任何量的节段，当然不时会出现。但是这些节段比较罕见，因为它们必定被其中所有的（或几乎所有的）节段具有拟收敛行为的序列极端长的部分所补偿。正如计算所表明的，这些延伸部分一定会比它们补偿的具有发散行为的节段长几个数量级。这也就是解决“机遇理论基本问题”（在第49节就是这样称呼的）的地方。从单个事件的不可预测性和不规则性到概率计算规则对这些事件的可应用性，这看起来自相矛盾的推论实际上是可靠的。假如根据这样一个假说性假定，即在根据先行者所作的任何选择中只出现一个循环的频率——“中频率”——因而没有后效发生，我们就能够以相当的逼近度来表示不规则性。因为根据这些假定，有可能证明大数定律是重言的。坚持这样的结论，即在可以说任何事情在这时和那时都会发生的——虽然某些事情的发生只是罕见的——不规则序列中，某种规则性或稳定性将出现在十分大的子序列中，这是可以允许的，并非自相矛盾的（有人有此主张）。这个结论也不是不重要的，因为为了这个结论我们就需要特殊的数学工具（Bolzano和Weierstrass定理，n－自由度概念，以及Bernoulli定理）。当我们知道，不规则性的假定可以置于某种频率假说（不受后效约束的假说）的形式中，并且知道，如果我们要证明从不可预测性到可预测性，从无知到知识的推论的可靠性，它就必须置于这种形式中，那么这种推论外表的自相矛盾就消失了。现在已变得很清楚，为什么老的理论不可能适当处理我所说的“基本问题”。大家承认，主观理论能够演绎出Bernoulli定理；但是在大数定理时兴以后它决不能用频率前后一致地解释它（参阅第62节）。因此它决不能说明概率预测统计学上的成功，另一方面，老的频率理论，根据它的收敛公理则明确要求有规则性。因此在这个理论内不会有从小规模的不规则性推论到大规模的稳定性问题，因为它只涉及从大规模的稳定性（收敛公理）同小规模的不规则性（随机公理）结合在一起，推论到大规模的特殊形式的和稳定性（Bernoulli定理，大数定律）。收敛公理不是概率计算基础的一个必要部分。我用这个结果来结束我的数学计算分析。现在我们回来考虑性质截然不同的方法论问题，尤其是如何判定概率陈述问题。65．可判定性问题无论我们可给概率概念下什么定义，或我们选择什么样的公理表述：只要二项式公式在系统内是可推导出来的，概率陈述就是不可证伪的。概率假说并不排除任何可观察的东西；概率陈述不可能同一个基础陈述发生矛盾，或被它反驳；它们也不可能被任何有限数目的基础陈述所反驳；因此也就不会被任何有限数目的观察所反驳。让我们假定我们已对某个二择一α提出某个均等机遇假说；例如我们已估计到用一块硬币作掷猜出现“1”和“0”的频率是均等的，因此 αF（1）－ αF（0）＝1/2；再让我们假定我们在经验上发现无例外地一次又一次出现“1”：于是我们无疑会在实际上放弃我们的估计，认为它已被证伪。但在逻辑的意义上不可能有证伪问题。因为我们可以肯定观察的只是一个有限的掷猜序列。并且虽然根据二项式公式，碰巧出现与1/2的离差很大的十分长的有限节段的频率是极小的，然而它必定总仍然是大于0。因此具有甚至最大离差的有限节段十分罕见的出现决不可能反驳这个估计。实际上，我们必定会期望它出现：这是我们估计的一个推断。任何这种节段可计算的罕见性将是证伪概率估计的一种手段，这种希望证明是要落空的，因为甚至一个长的、离差大的节段的频率出现，也总可以说不过是一个更长、离差更大的节段的一次出现。因此不存在在外延方面给定的事件序列，所以不存在能够证伪概率陈述的有限的几个一组的基础陈述。只有一个无穷的事件序列——根据某项规则在内包上加以定义的——能反驳一个概率估计。但是鉴于第38节阐述的考虑（参阅第43节），这就是说，概率假说是不可证伪的，因为它们的维（dimension）是无限的。所以我们实际上应把它们描述为经验上没有信息的、没有经验内容的。然而面对物理学利用从概率假说性估计那里得到的预测所取得的成功，任何这种观点显然是不能接受的。（这里所用的论据同早些时候用来反对主观理论把概率解释为重言的论据是一样的。）许多这些估计的科学意义不亚于其他任何物理学假说（例如，不下于某一决定论性质的假说）。并且物理学家常常很能判定他是否可暂时接受某种特定的概率假说为“经验上得到确证的”，或他是否应该把它作为“实践上被证伪的”而加以摈弃，即对于预测设有用处。十分明显，这种“实践上被证伪”只能通过方法论上的判定才能获得，以把高度不可几的事件认作被排除的——被禁止的。但是根据什么理由可认为它们如此呢？我们应从什么地方获得这种思路？这种“高度不可几性”从哪里开始？由于从纯逻辑观点看，概率陈述不可能被证伪这个事实是不可能有什么疑问的，我们在经验上使用它们这个同样不容置疑的事实似乎必定是对我关于方法（我的划界标准决定性地依赖于它）的基本思想的致命打击。然而我将通过果敢地应用这些思想来试图回答我已提出的问题——什么是可判定性问题。但是要做到这一点，我将首先不得不分析概率陈述的逻辑形式，既考虑到它们之间逻辑上的相互关系，又考虑到它们与基础陈述所处的逻辑关系。66．概率陈述的逻辑形式概率估计不是可证伪的。当然，它们也不是可证实的。同样理由这也适用于其他假说，因为看到任何实验结果，不管多么多和多么有利，最后总能确定“正”的相对频率是1/2，并且将总是1/2。因此概率陈述和基础陈述不可能相互矛盾，也不可能彼此蕴含。然而由此得出结论说概率陈述和基础陈述之间没有任何逻辑关系，那就错了。并且同样不能认为虽然在这两类陈述之间有逻辑关系（因为观察序列同频率陈述显然或多或少是接近一致的），这些关系的分析迫使我们引入一种突破经典逻辑的特殊概率逻辑。与这些观点相反，我认为这些关系完全能够用可推演性和矛盾的“经典”逻辑关系来分析。从概率陈述的非可证伪性和非可证实性可以推论出，它们没有可证伪的推断，它们本身不可能是可证实陈述的推断。但是相反的可能性并未排除。因为它可以是（α）它们有单向可证实推断［纯粹存在推断，或有推断（there－is－conse－quences）］或（b）它们本身是单向可证伪全称陈述[所有- 陈述（all—statements）]的推断。可能性（b）对于弄清概率陈述和基础陈述之间的逻辑关系鲜有帮助：一个非可证伪陈述，即一个说得很少的陈述能够属于可证伪的、因而说得更多的陈述的推断类，这是非常明显的。对我们意义更大的是可能性（α），它无论如何不是没有意义的，并且事实上结果证明对我们分析概率陈述和基础陈述之间关系是基本的。因为我们发现能够从每一个概率陈述中演绎出无限类的存在陈述，但反之不然。（因此概率陈述断言的比任何这些存在陈述断言的更多。）例如，设p是对某一二择一假说性估计的概率（并设0≠p≠1）；那么我们能从这个估计中演绎出例如1和0都将出现在这序列的存在推断。（当然也还有许多远不是那么简单的例子——例如，会出现与p的离差仅为一非常小的量的节段。）但是我们从这个估计中能演绎出的多得多；例如“一遍又一遍地”出现一个具有性质“1”的元素和具有性质“0’的另一个元素；那就是说，在任何元素x之后，在序列中会出现一个具有性质“1”的元素y，并且也出现一个具有性质“0”的元素x。这种形式的陈述（“对于每一个x有y具有可观察的、或外延上可检验的性质B”）既是不可证伪的——因为它没有可证伪的推断——又是不可证实的——由于使之成为假说性的“所有”或“对于每一个”。虽然如此，它能够得到更好地或不那么好地“确证”——指我们可以证实它的许多或很少存在推断，或者不能证实它的存在推断；因此它与基础陈述处于似是概率陈述特有的关系中。上述形式的陈述可称为“全称化的存在陈述”或（全称化的）“存在假说”。我的主张是，概率估计对基础陈述的关系，以及这些估计或多或少得到很好“确证”的可能性，考虑到这一事实就能理解：存在假说在逻辑上可从所有概率估计中演绎出来。这对概率陈述本身是否可有存在假说的问题是有启发的。一切（假说性的）概率估计蕴含着这样的推测：所说的经验序列几乎是似机遇和随机的。这就是说，它蕴含着概率计算公理的（近似的）可应用性，以及真理性。所以，我们的问题就是这些公理是否代表我所说的“存在假说”的问题。如果我们检查一下第64节中提出的两个要求，那么我们发现随机性要求实际上具有存在假说的形式。另一方面，惟一性要求则没有这种形式；它不可能有这种形式，因为这种形式的陈述“只有一个……（There is only one……）”必然具有全称陈述的形式。（可译为“至多一个……”或“所有……是同一的”。）在这里我的论点是，正是概率估计的（可称之为的）“存在成份”，因而正是随机性的要求，概率估计和基础陈述之间才建立起一种逻辑关系。因此，惟一性的要求，作为全称陈述，没有任何外延的推断（extensional consequences）。具有所要求性质的p的值存在这一点确定能够在外延上得到“确证”——虽然只是暂时地；但是只存在一个这样的值这一点则不能。这后一个全称的陈述可能在外延上有意义，仅当基础陈述能够同它发生矛盾时；这就是说，仅当基础陈述能够肯定存在的值不止这一个时。由于它们不能够（因为我们记得不可证伪性与二项式有密切关系）做到这一点，惟一性的要求必然在外延上是没有意义的。这就是为什么如果我们从系统中消去惟一性要求，概率估计和基础陈述以及前者的分级“可确证性”之的分级之间所有的逻辑关系不受影响的缘故。在这样做时，我们能够给予系统以纯粹存在假说的形式。但是我们因此不得不放弃概率估计的惟一性，并且因而（就惟一性而言）获得某种不同于通常概率计算的东西。所以惟一性的要求显然不是多余的。那么它的逻辑功能是什么？虽然随机性要求有助于确立概率陈述和基础陈述之间的某种关系，惟一性要求调节着各种概率陈述本身之间的关系。没有惟一性要求，作为存在假说的某些陈述，可以从其他陈述中推导出来，但是它们决不可能彼此矛盾。只有惟一性的要求才保证，概率陈述能彼此矛盾；因为根据这个要求它们获得其成分为一个全称陈述和一个存在假说的合取形式；并且这种形式的陈述能够彼此处于同样基本的逻辑关系中（同义、可推导性、相容性和不相容性），正如任何理论——例如一个可证伪的理论——的“正常的”全称陈述那样。如果我们现在考虑收敛公理，那么我们发现，在它具有一种不可证伪的全称陈述的形式这一点上它类似惟一性要求。但是收敛公理要求的比惟一性要求的更多。然而这种附加要求也不可能有任何外延上的意义；此外，它没有逻辑或形式的意义，而只有内包上的意义：它要求排除所有没有频率极限的用内包定义的（即数学的）序列。但是从应用观点看，这种排除证明甚至在内包上也没有意义，因为在应用概率论中我们当然不涉及数学序列本身，而只涉及经验序列的假说性估计。所以排除没有频率极限的序列，只能用来告诫我们不要把那些经验序列着作为似机遇或随机的，对于那些经验序列我们假定它们没有频率极限。但是对这种告诫，我们能够采取何种可能的行动？鉴于这种告诫，我们应该容许或避免哪类关于经验序列可能收敛或发散的考虑或推测，保证收敛标准同发散标准一样可应用于这些序列？一旦摆脱了收敛公理，所有这些尴尬的问题也就消失了。因此我们的逻辑分析使系统各部分的要求的形式和功能都一目了然，并且表明反对随机性公理和支持惟一性要求的理由是什么。同时可判定性问题似乎变得越来越重要。并且虽然我们不一定称我们的要求（或公理）“无意义”，看来我们被迫把它们描述为非经验的。但是概率陈述的这种描述——不管我们用什么话来表达它——是否同我们研究的主要思想相矛盾呢？67．思辨形而上学的概率系统概率陈述在物理学中最重要的用处是这样：某些物理学规律性或可观察的物理效应被解释为“宏观定律”；也就是说，它们被解释或说明为大数现象，或假说性的、不能直接观察的“微观事件”的可观察结果。宏观定律用下列方法从概率估计中演绎出来：我们证明，与所说的观察到的规律性一致的观察结果，应该期望其概率十分接近于1，即其概率与1的离差为一个能达到按我们选取的那样小的量。当我们已证明这一点时，那么我们就说，我们已经用我们的概率估计把所说的可观察效应“解释”为一个宏观效应。但是如果我们以这种方法使用概率估计来“解释”可观察的规律性而不采取特定的预防措施，那么我们会马上陷入某些思辨，根据一般的用法，完全可以把它们描述为思辨形而上学的典型。因为概率陈述是不可证伪的，以这种方法用概率估计“解释”我们喜欢的任何规律性必定总是可能的。以万有引力定律为例。我们可以下列方法设想出一些假说性的概率估计来“解释”这个定律。我们选择某类事件作为基本事件或原子事件；例如某一小粒子的运动。我们也选择某方面作为这些事件的主要性质；例如粒子运动的方向和速度。于是我们假定这些事件显现出似机遇的分布。最后我们计算出所有的粒子在某一有限的空间区域内，在某一有限的时期内——某一“宇宙期”——将以规定的精确性（附带地说，以万有引力定律要求的方式）运动的概率。计算出的概率当然将十分小；实际上小得微不足道，但是仍然不等于零。因此我们可以提出这样的问题：这个序列的某个n－节段得有多长，或换言之，整个过程必须假定有多长，我们才可期望这种宇宙期出现的概率接近1（或与1的离差不超过某一任意小的值E），在这宇宙期内，作为偶发事件积累的结果，我们的观察将会完全与万有引力定律一致。对于任我们选取的接近于1的任何值，我们获得一个确定的、虽然极端大的有限数。于是我们可以说：如果我们假定序列的节段有这十分大的长度——或换言之，“世界”延续得足够长——那么我们的随机性假定使我们能够期望出现一个方有引力定律似乎也适用的宇宙期，虽然“实际上”除了随机发散外什么也没有出现。借助某种随机性假定，这类“解释”可应用于我们选取的任何规律性。事实上，我们可用这个方式把我们整个世界，以及它的所有被观察到的规律性，“解释”成随机混沌中的一个阶段——纯粹偶然巧合的一种积累。我认为很清楚，这类思辨是“形而上学的”，它们对科学没有任何意义。并且同样清楚的是：这个事实同它们的不可证伪性——我们能在任何时候和任何条件容许它们这个事实是有联系的。因此我的划界标准似乎同“形而上学的”一词的一般用法是完全一致的。所以涉及概率的理论，如果它们不加特定预防措施而加以应用，就不应被认为是科学的。如果它们应在经验科学的实践中有用处，我们就必须排除它们的形而上学用法。68．物理学中的概率可判定性困难的问题只是方法论的，不是物理学的。如果要求提出一个实践上可应用的概率概念，物理学家也许会提供某种物理学的概率定义，其思路如下：有些实验，即使在受控条件下进行也得出不同的结果。在某些这类实验——“似机遇的”实验，例如用硬币做掷猜——的情况下，经常重复导致具有相对频率的结果，进一步重复，这些相对频率越来越逼近某个固定值，我们可称之为所说事件的概率。这个值是“……可用经验通过一长系列实验确定到任何逼近度”；顺便说，这说明为什么证伪一个假说性的概率估计是可能的。数学家和逻辑学家会对根据这些思路下的定义提出异议，尤其是下列异议：（1）这个定义与概率计算并不一致，因为根据Bernoulli定理，只有几乎所有非常长的节段才是统计学上稳定的，即其行为仿佛是收敛的。由于这个理由，概率不能用这稳定性，即用拟收敛行为来定义。因为“几乎所有”一词——它应该出现在定义中——本身只是“十分可几的”一个同义语。因此这定义是循环的；这个事实容易通过去掉“几乎”一词隐避起来（但不能取消）。这就是物理学家的定义所做的事；所以这是不能接受的。（2）什么时候应说一系列实验是“长的”？不提供一个应称之为“长的”标准，我们不能知道我们何时，或是否已达到逼近这个概率。（3）我们如何能知道所需要的逼近实际上已达到？虽然我认为这些异议是合理的，然而我认为我们能够保留物理学家的定义。我将通过上节概述的论据来支持这种见解。这些论据表明当概率假说被允许无限应用时，它们就失去所有信息内容。物理学家决不会以这种方式使用它们。我将遵循物理学家的范例，不允许概率假说的无限应用：我建议我们作为方法论的决定决不把物理效应，即可复制的规律性，解释为偶发事件的累积。这个决定自然修改了概率概念：它使这个概念变窄了。因此异议（1）并不影响我的观点，因为我根本不主张概率的物理概念和数学概念是同一的；反之，我否认这种同一性。但是代替（1），出现了一个新的异议。（1’）什么时候我们能谈到“累积的偶发事件”？大概在概率很小的情况下。但是什么时候一个概率“小”？我们可以承认的是，我刚提出的建议排除了使用通过改变数学问题的提法，从小概率中制造任意大概率的方法（前节已讨论）。但是为了执行所建议的决定，我们得知道我们应把什么看作是小的。下面几页将表明所建议的方法论规则与物理学家的定义是一致的，问题（1’）、（2）和（3）提出的异议能借助它得到解答。开始，我脑子里只有一个典型的概率计算应用例子：我脑子里有一些可复制的宏观效应例子，这些效应能够借助精确的（宏观）定律——如气体压力——加以描述，并且我们把这些效应解释或说明为由于微观过程，如分子碰撞大量积累所致。其他典型例子（如统计涨落或似机遇的个别过程的统计）可没有很多困难地还原为这个例子。让我以这种类型的宏观效应为例，该效应由一个得到很好确认的定律来描述，这个定律可还原为微观事件的随机序列。设这个定律断言在某种条件下某物理量为p值。我们假定效应是“精确的”，因此没有可测量的涨落发生，即与p的离差不超过间距±o（不精确性的间距；参阅第37节），在此间距内我们的测量由于现行测量技术固有的不精确性，无论如何会有涨落。现在我们提出假说：p是微观事件序列α内的概率；其次，n个微观事件促使产生效应。于是（参阅第61节）我们能够对每一个选取的δ值，计算出概率αnF（△P），即测定值将落在间距△P内的概率。补概率可用“E“来表示。因此我们有αnF（△ ）＝ε。根据Bernoulli定理，随n增加至无限，ε趋向零。我们假定ε“小”到可以不计（在这个假定中有“小”是什么意思的问题（1’），马上就要讨论它）。显然，△p应解释为间距，测量在此间距内逼近p值。由此我们看到三个量：ε，n，和△p与三个问题（1’），（2）和（3）相应。△p或ε可任意选取，它限制了我们选取ε和n的任意性。由于我们的任务是演绎出确切的宏观效应p（±φ），我们不去假定δ大于φ。就可复制效应p而言，如果我们进行的演绎满足δ≤φ ，它就是令人满意的。（这里φ是给定的，由于它是由测量技术来确定的。）现在让我们选取δ使它（近似地）等于φ。于是我们就将问题（3）还原为两个其他问题（1’）和（2）。通过选取δ（即△P）我们已在n和ε之间确立了一种关系，因为对于每一个n，现在都有一个ε值惟一地与之相应。因此（2），即什么时候n有足够长这个问题已还原为（1’），即什么时候ε小这个问题（反之亦然）。但是这意味着只要我们能够判定ε的哪一个特定的值可被认为“小到微不足道”而不计，所有三个问题都可得到回答。现在我们的方法论规则等于是决定忽略不计小的ε值；但是我们不准备老是去讨论某个确定的ε值。如果我们把问题交给物理学家，即如果我们问他，他准备不计什么样的ε——0．001或是0．000001，或是……？他大概会回答E根本不使他感到兴趣；他选取的不是ε而是n；他已这样选取n，使n与△P之间的相关大大独立于我们愿意造成的ε值的任何变化。由于Bernoulli分布的数学特点，物理学家的回答是有道理的：对每一个n，确定ε和△p之间的函数关系是可能的。对这个函数作一检查就可表明，对于一切（“大的”）n都存在一个表示特征的△p值，使得在这个值的邻域，完全不受ε的变化的影响。这种无影响性随n的增加而增加。如果我们取我们在极端大数现象情况下应该期望的一个数量级的n，那么在它的特征值的领域△p完全不受ε的变化的影响，以致即使ε的数量级改变，△p也几乎根本没有变化。现在物理学家将把很小的值附加于规定得更明确的△p界限上。并且在研究所限的典型的大数现象的情况下，我们记得，能够使△p与精确度为±φ（取决于我们的测量技术）的间距相对应；并且这个间距没有明确的界限，只有我在第37节所说的“缩聚界限”（condensation bound）。所以当△p在它的特征值（我们能够确定这个值）的领域的无影响性至少有如此之大，甚至ε数量级的改变引起的△p值仅在±φ的缩聚界限内涨落时，我们才称n是大的。（如果n→∞，则△P变得完全不受影响）。但是如果是如此，我们就无需再操心ε的精确测定：即使我们没有精确地说出必须把什么看作是“小的”，决定置小的ε于不顾也就够了。这等于是决定利用上述不受ε的变化的影响的△p的特征值。必须把极度不可几性置于不顾的规则（只有根据上述才成为十分明确的一条规则）与要求科学的客观性是一致的。因为对我们的规则的明显反对显然是，最大的不可几性始终是一种概率，不管这种概率有多么小，因此甚至最不可几的过程——即我们建议置之不顾的过程——终有一天会发生。但是这个反对意见可通过恢复可复制的物理效应概念来予以解决，这个概念与客观性概念有密切联系（参阅第8节）。我不否认不可几事件会发生的可能性。例如我并不断言在小量气体中的分子在一短暂时间内不会自发地聚集成为这容量的一部分，或者在大量气体中压力的自发涨落永远不会发生。我断言的是，这些偶发事件不是物理效应，因为根据它们的极度不可几性，它们不能随意复制。即使一个物理学家碰巧观察到这种过程，他也完全不可能去复制它，因此永远不能判定在这种情况下实际发生了什么，他是否有可能犯了一次观察上的错误。然而，如果我们发现一些可复制的离差，这些离差不同于按上述方式从概率估计中演绎出的宏观效应，那么我们必须假定概率估计已被证伪。这些考虑可帮助我们理解Eddington的下述看法，他区别了两类物理定律：“某些事情永远不会在物理世界中发生，因为它们是不可能的；另一些则因为它们也是不可几的。禁止前者的定律是一级定律；禁止后者的是二级定律”。虽然这种表述也许并不能摆脱批评（我宁愿不去对极度不可几的事情是否发生作出不可检验的断言），但它与物理学家对概率论的应用完全一致。