到这一章,概率的基本概念我们已经梳理完了。这些概念构建起来的概率空间给了我们强有力的分析不确定性的工具,概念非常重要只有对概念有准确的理解才能应用好这些有力的工具。数学是很抽象的东西,他源于实践但高于实践(是不是很像艺术啊),所以很多概念不可能一遍吃透,要反复的复习理解。大学那点数学底子估计90%的人都已经还给老师了,但是是一个很好的基础,搞算法数学基础一定要扎实,否则很难做好。(一点体会与算友们分享)
今天介绍的两个概率论中的非常重要的概念,大数定律和中心极限定理。这两个规律告诉我们,在不确定的世界里也是有规律可循的。
大数定律说的是部分数据在某些条件下可以反映总体规律,是对大系统可通过对其抽样来研究整体特性的的理论基础。专业一点的说法是随机变量序列的前一些项(部分)的算术平均值在某种条件下收敛算术平均值(整体)。是不是很简单啊!和以往一样,我们不关注定理的推导,如果有兴趣可以看一下教材(用到了切比雪夫不等式)。比如说我们抽检一批产品的合格率是否满足要求,而产品的数量非常多比如有几十万个,我们会抽样n个批次,每一批次的抽样都可以看成一次随机实验,三批抽样的合格率的平均值如果都在95以上,我们就会认为整批产品的合格率超过了95%。这个依据就是大数定律。这个大数和我们平时看到被热炒的大数据中的大数还不是一回事,但在抽样这个角度确实有些关联。要注意以下大数定律应用的条件,就是随机变量的数学期望存在,并且随机变量之间相互独立(可以简单理解为每一次试验是独立的,相互之间没有关系)。条件大家一定要注意,不然会用错。
大数定律有两个,一个叫辛钦大数定律-弱大数定律,还有一个叫伯努利大数定律。本质上讲的是一回事,伯努利大数定理说了另外一件事就是如果事件A可能发生,那么在足够多的尝试后就一定会发生(这不就是墨菲定律嘛,机场、高铁站都有得卖,其实概率论里早就说清楚了,我还买了一本,哈哈哈)举个例子,如果有天上掉馅饼的可能,那么在足够多的天数的情况下这个馅饼一定会掉下来。脑洞开一下,如果氨基酸和蛋白质有可能随机形成,那么在足够长的时间里一定会形成,如果生命有可能出现,那么在足够长时间里,一定会出现啊!!天哪,进化论难道是这么理解吗?如果这么推论,那么一定会有外星智慧生命啊!(细思极恐)
中心极限定理讨论的是一种特殊的分布-正态分布出现的条件。之前我们介绍过,很多随机现象都满足正态分布,比如电路的热噪声、男人身高的分布等等。这个定理告诉我们,正态分布出现的充分必要条件(在科研的时候会用的着,如果我们看到的实验数据符合正态分布,那说明实验一定满足了正态分布的条件,那个漂亮个高斯曲线实在是太熟悉了)。这个条件是啥呢?
均值和方差存在的独立同分布随机变量,那么他们叠加的结果,当n充分大的时候,分布是满足0-1正态分布!!!!我的天啊,这不就是说如果结果是正态的,那么一定是由多个独立同分布的现象叠加起来的嘛!!!!我们实验中看到的那个结果高斯曲线,是若干不确定结果叠加的必然现象啊!所以,那些个复杂系统呈现出来的某种状态很可能满足高斯分布,放心的用高斯函数去拟合吧!
中心极限定理还可以用其他两种形式,一个叫李雅普诺夫定理,一个叫隶莫佛-拉普拉斯定理。李氏定理说的是不论相互独立的随机变量各自分布如何,当n(随机变量的个数)足够大的时候,也满足正态分布。后面那个定理说的是二项分布的极限为正态分布!其实都是中心极限定理的某种补充和特例。从中心极限是不是可以得出,正态分布这个形式是复杂系统不确定性的一般规律呢?大家各自发挥想象吧。
至此,所有概率论的中的重点内容介绍完了!