约翰·伯努利(卡内基-梅隆大学图书馆惠允)
然而, 这次是雅各布笑到了最后, 因为弟弟的二阶微分方程是不正确的。遗憾的是, 实际上雅各布没有机会大大嘲笑一番, 哪怕是微微冷笑, 因为在1705年他就去世了, 而当时约翰对这个问题的错误解仍然神秘地密封在巴黎学院的办公室。有这样一种推测, 约翰已经认识到了自己的错误, 并设法把这个错误偷偷地掩藏起来, 这样就不用忍受公开的羞辱, 让哥哥看笑话。
这些趣事充分展现了他们兄弟之间的不和, 因此发生下面的事也就一点都不奇怪了。当时人们都认为约翰是编辑他刚去世的哥哥的论文的最合适的人选, 但是雅各布的遗孀却阻止了这件事, 因为她担心有报复心的约翰会破坏雅各布留下的数学遗产。霍夫曼(J. E. Hofmann)在《科学家传记大辞典》中对雅各布的个性也许做了最好的描述:“他任性、固执、好斗、有报复心, 而且受自卑心的困扰, 但是他对自己拥有的才能还是有自信的。因为有这样的个性, 所以他必然会同有相同个性的弟弟发生冲突。”的确, 雅各布和约翰是因傲慢自大而自毁名声的那种人。
暂且不谈他们兄弟之间的竞争, 我们回到前面提到的概率问题:如果投掷一枚均匀的硬币五次, 产生三次正面和两次反面的概率是多少呢?在《猜度术》中, 雅各布 • 伯努利给出了一般规则:如果我们重复操作n m次独立试验(即n m次伯努利试验), 其中任意一次试验成功的概率是p, 而失败的概率是1-p, 那么正好得到n次成功和m次失败的概率由下面的公式给出。
为了化简上面这个公式, 数学家引入了阶乘的记法:
例如, 3!=3×2×1=6,5!=5×4×3×2×1 =120。(注意, 阶乘中的感叹号不是要求我们大点声说话。)由于有了这样便利的记法, 伯努利结果则化简成:
因此, 在投掷一枚均匀的硬币五次之后, 得到三个正面的概率就是设n=3,m=2,p=Prob(投出一个正面)=1/2。于是有
同样, 为了求投掷一枚骰子15次, 正好得到五个4的概率, 我们声明得到一个4是“成功”, 且指定值:
于是经过15次独立的投掷, 得到5个4的概率是
这是几乎不可能发生的事情。
回到早前的一个问题, 投掷一枚硬币500次, 得到247次正面和253次反面的概率是
这个结果尽管正确, 但这个概率太复杂, 无法手算得到, 而且即使有一个高级的袖珍计算器也无法实现计算500!这样大的数的愿望(对此怀疑的人不妨试一试)。我们将在第N章看到近似求解这种概率的一项技术。但是, 即使无法这样直接计算, 这个公式在理论上也还是很完美的。它是求任意一系列独立伯努利试验概率的关键技术。
遗憾的是, 日常生活中的大多数事件实际上比投掷硬币复杂得多, 这几乎是太纯粹的概率状况。确定一个25岁的人能活到70岁以上的概率, 或者确定下一个星期二的降雨量超过一英寸(25.4毫米)的概率, 或者确定一辆正驶入交叉口 的汽车要右转弯的概率, 求解这些问题绝不是一件容易的事。这些事件因为现实世界的纷繁复杂而使人一筹莫展, 正如雅各布说的那样:
我要问, 列举所有可能的情况, 能够确定在人身体不同部位、不同年龄段折磨他的致命疾病的数量吗?或者说, 假如能够确定一种疾病比另外一种疾病更具有致命性, 如瘟疫比水肿更能致人死亡, 或水肿比发烧更能致人死亡, 那么基于这样的认识就能够预测未来一代人的生存与死亡之间的关系吗?[6]
这样的概率超出数学的范畴了吗?概率论只能被归类于模拟博弈游戏吗?
伯努利在那本也许是他最伟大的遗产《猜度术》中, 针对这个问题给出了非常有力的回答。事实上, 他把这个问题称为他的“黄金定理”, 并写道:“就其新颖度和其强大的实用性而言, 再加上其较大的难度, 这一定理因其分量和价值已经成为这一学说之最。”今天所谓的伯努利定理就是通常所说的大数定律, 它被认为是概率论的中流砥柱之一。
为了对它的性质有所了解, 再次假设我们正在进行独立的伯努利试验, 其中每一次试验的成功概率为P。我们知道操作的总试验次数, 称其为N, 而且还知道结果成功的试验次数, 称其为x。于是分数x/N就是我们观察到的成功的次数比例。
例如, 如果投掷一枚均匀的硬币100次, 产生47次正面, 则观察到的正面比例是47/100=0.47。如果再将这枚硬币投掷100次, 又产生55次正面, 则总的成功比例是
没有什么理由阻止他人再把这枚硬币投掷100次, 或者投掷1亿次, 只要掷硬币的人不厌其烦。关键的问题是经过长时间的操作, 成功的比例 x/N 会发生什么变化呢?
当试验的次数增加时, 应该没有人对发现这个比例接近0.5而感到惊讶。一般来说, 当 N 变大时, 我们会看到 x/N 的值趋向一个固定的数p, 这是任何一次单次试验的成功的真概率。所以, 这里就显示出这个定理的威力, 当成功的概率p未知时, 在较大次数的试验当中, 成功的比例p应该是的一个较好的估计值。用符号表示, 我们应该写成 ,
,当N较大时(的意思是“近似等于”)
加上少数几个重要条件, 这就成了大数定律。伯努利定理之所以如此著名, 并不是因为它道出了一个真理, 而是因为很难用严格的论据加以证明。雅各布自己也以他那极具代表性的尖刻语言承认“即使是最笨的人也应该可以本能地理解(大数定律)”。然而, 为了给出这个定律的正确的证明, 他付出了二十年的努力, 给出的证明占据了《猜度术》好几页。事实证明, 他的评论“这一原理的科学证明并不是那样简单”是有意轻描淡写的陈述。
我们应该说说前文提到的关于伯努利定理的“重要条件”。因为它本质上是一个概率陈述, 所以它应该是随时可能发生的不确定性。我们不能绝对确定投掷一枚硬币1000次产生正面的比例将比仅投掷100次产生正面的比例更接近0.5。完全有可能投掷100次时产生51次正面, 而且有可能投掷1000次时只产生486次正面。因此这个“小样本”估测x/N=51/100=0.51实际上应该比“大样本”估测 x/N=486/1000=0.486 更接近投掷正面的真实概率。完全有可能发生这样的事情。
这样说来, 如果我们再投掷1000次, 那么每一次投掷都产生正面也不是完全没有可能的。有可能产生一个惊人的结果, 2000次投掷产生1486次正面, 于是估测概率是1486/2000=0.743。在这样的情况下, 大数定律似乎已经不好使了。
但事实并非如此。因为雅各布 • 伯努利证明的是, 对于任意给定的小容差, 比如说0.000 001, 估测概率x/N与真实概率p的差是这个小容差或者比它更小的可能性可以接近于1, 条件仅仅是增加试验次数。只要做足够多的试验, 我们几乎可以肯定, 或者使用伯努利曾经使用的词语道义上肯定, 我们的估测值x/N与真实概率p之差一定在0.000 001以内。当然, 我们不能百分之百确定p与x/N之差小于0.000 001, 但是大量的试验可以让我们充分肯定这种推断不至于太离谱。
上述情况, 即投掷均匀硬币2000次而掷出正面的概率被估测为0.743, 其可能性有可能小于一个人在看本章时遇到流星的概率。另外, 即使出现了这样一个不可能的估测值, 伯努利仍然非常自信地声称, 通过做大量的试验, 比如2000次、200万次或更多, 这个比例x/N肯定趋向于0.5。
要强调的是, 即使对于这样少的限制条件, 大数定律仍然是可证明的, 这一点很重要。这不同于我们在生活中遇到的其他著名定律, 如墨菲定律和万有引力定律。它们要么是被普遍认可的陈词滥调(如墨菲定律), 要么是被高度赞誉的物理模型(如万有引力定律), 都要随时根据证据而被修正。但是大数定律是一个数学定理, 而且已经证明在必须遵守的逻辑限制之下, 它永远成立。
另外, 它有自己的用途。保险公司用于调整精算表格的生存概率就是依据大量类似试验(例如人的存活和死亡)的结果。天气预报员预报的下雨概率也是如此。
或者考虑这样的例子, 回到18世纪, 求一位妇女生一个男孩而不是女孩的概率。如何能够用某种先验的方式计算出这一概率呢?遗传的复杂因素严重破坏了事先用某种纯理论方法确定生一个男孩的概率状况。于是, 我们被迫起用“既成事实”或者事后验证, 以伯努利定律为武器进行处理。
在18世纪早期, 这个特殊的问题就一直萦绕在英国人约翰 • 阿巴思诺特(John Arbuthnot)的头脑之中。如同其他前人一样, 他从人口调查记录中注意到每年出生的男孩比女孩稍微多一些, 并认为这种不平衡已经存在“好多年, 不仅在伦敦, 而且在全世界”。阿巴思诺特试图借助“上帝之佑”来说明这一现象。几年后, 雅各布和约翰的侄子尼古拉斯 • 伯努利继承了家族拥有的数学天分, 运用大数定律得出结论:生男孩的概率是18/35。换句话说, 大量的出生记录显示出一种显著而稳定的趋势, 男女比例18比17。伯努利定理“不仅在伦敦, 而且在全世界”得到应用。
直到今天, 它仍在起作用。一项被称为蒙特卡罗方法的技术在伯努利定理和计算机强大威力的帮助下已经变得非常重要, 因为它能够帮助科学家以概率的模式模拟大范围的随机现象。下面就是蒙特卡罗方法的一个相当简单的示例。假设我们希望求得一个不规则形状的湖面的表面积。我们可以沿着湖边走, 或者俯拍一张照片, 但是湖的弯曲和其表面上的不规则边界使得很难用任何数学公式确定其面积。
假设我们的湖呈图B-2中阴影的形状, 我们已经在图上给出了和的坐标。因为我们计划在第L章中重温这个例子, 所以选择了一个形状比较规整的湖, 是一个以轴和方程为的抛物线为边界的湖。