秦朝末年,陈胜、吴广就喊出了“王侯将相,宁有种乎”的口号,有幅名联也说“自古英雄多磨难,纨绔子弟少伟男”,可是统计学却给了我们不一样的答案。上千年的科举考试的结果统计显示,出身农村的进士比例只占50%强,其余都是出身仕宦贵族,而当时中国人口90%以上都身居农村,这还包括了中小地主家庭,这样一比较的话,真正出身农民家庭的进士的比例就更少了。就连今天在号称民主的美国,你也能看见这种现象,总统老布什的儿子小布什也是总统,而肯尼迪家族事实上已经是个政治上的贵族家庭,虽然民主表面上可以做到人人都有平等竞争的机会,但统计数字告诉我们,实际上生于官宦家庭的人进入上流社会的机会更多。
这说明,统计能经常修正我们对社会现象的固有直觉。
抛硬币也需要统计
就连最简单的抛硬币,我们都离不开统计的帮助。
抛硬币是一种古老的、我们认为最公平的赌博方式。人们一般相信,硬币落下后正反面朝上的概率各占50%,因此人们在进行两难选择时喜欢用抛硬币的方式来决定,如足球比赛开场时,裁判都会把双方的队长叫过来,从口袋中掏出一枚硬币,让队长们各选一面,然后抛向空中。如果不是考场纪律不允许,一定也会有人在考场上抛硬币来做选择题,因为我们都相信,硬币落下后正反面朝上的概率各占50%,这样至少我们有一半的机会做出正确的选择。
既然抛硬币的机会是50%,那我们连续抛好几次硬币,是不是正反两面的次数都一样呢?
二战时,有位数学家被关进了集中营,德国士兵夺走了他的一切,却意外地留给了他一枚硬币,或许这是对他数学家身份的“优待”。作为一个数学家,在集中营里他能做什么呢?在士兵的机枪下,他开始抛硬币,用横与竖代表正面和反面,把结果刻在集中营的墙壁上。
他抛10次的结果,有7次正面朝上,正面比反面多4次,正面朝上的次数占70%;抛20次,有13次正面朝上,比反面多6次,占65%⋯⋯
当他抛到10000次时,反面5061次,反而比正面多了122次,占50.61%;最后他一共抛了80640次,反面40641次,多出正面642次,占50.39%。
他抛的8万多次中,只是在抛第142次时,出现了正反面各71次的结果,其他时候,正反面出现的次数都不相等。
这位数学家发现,尽管正反面出现次数的差距有时拉大有时缩小,但总体来说,随着抛的次数的增多,正面与反面出现次数的差距会逐渐增大,不过各自所占的比例,却大体会越来越接近50%,却几乎不会刚好等于50%。而我们抛有限的几次,正反正好各半的机会是很小的。
在这里,统计学让我们了解到抛硬币的规律也不能想当然。
“死”也躲不开的统计
统计就是通过大量的数据在某些看似没有规律的事件中找出运行的规律,准确的统计数据能帮助我们对纷繁复杂的社会现象进行定量分析,从而为我们在做预测时提供参考。正因为如此,统计已经进入人类社会生活的方方面面。
我国每10年会进行一次全国人口普查,到时候会有大量的志愿者敲开各家各户的大门,让他们填写表格。从普查后的数据中可以找出人口变化的情况,像男女比例、各年龄段人口比率、就业率、出生和死亡率等,这可都是关系到国计民生的大事。
不仅国家需要这些人口信息,企业也需要这些信息指导自己的长期经营。保险公司知道了人口的死亡率,才可以计算出应该收多少保险费,太贵了,没有人投保,太便宜了,赔的钱超过了收的钱,可要亏本的。
企业经营也需要进行统计。没准什么时候,你在家里会突然收到一个电话,原来是电视台打来的,他们在统计节目的收视率。收视率越高,他们的广告就卖得越贵。
我们的生活也离不开统计。每个月家里大概会花多少钱,妈妈也许并没有认真计算过,但心里一定有本帐,多花了一点就会悄悄埋怨,这个月是什么东西又涨价了,让生活费超支,她已经在不知不觉中统计了每个月的平均支出。
学校要统计升学率,班上要统计成绩和名次,你自己也要统计自己的总分或平均成绩的升降。
这样看起来,统计似乎是个很简单的脑力劳动,不就是把一些累积的数字弄在一起,再来个加减乘除吗?似乎小学生也能做得了。你如果真这样想,可就大错特错了,统计可不是这么简单的,其中蕴藏着许多复杂的数学知识,是一门很深的学问呢!
统计自己的总分,只需要把所有的科目分数加起来就行了;妈妈要摸清家里支出的规律,就要在几年的时间里连续统计每个月的支出;而电视台只有给所有的观众都打电话调查才能得到准确的收视率,可是他们可能会有几十万的观众呀;我国有十三亿人口,国家进行人口普查就更难了,难怪要每10年才能进行一次,但是10年间,某些方面的数据可能会有很大的变化,中间这几年如果需要数据,那么该怎么办呢?
由此可见,社会现象愈复杂,我们的统计工作也就愈困难。
投机取巧的抽样
认识到统计的难度,我们就需要掌握一些统计技巧了,抽样调查就是一个常见的统计调查方法。我们先来看看电视台如何进行收视率统计。
假设有一家电视台,总共有7位用户(好可怜的电视台,选择比较小的数字,是为了方便读者能够自己组合出正确的答案)。现在他们推出了一台新节目,想了解收视率是多少。这7位用户中有2户收看这个的节目,因此节目收视率为28.57%,可是电视台并不知道,他们需要进行电话调查。假设电话费很昂贵,一家一户地去调查,电视台开支太大,因此他们最多只能选择其中的4户进行随机抽样调查。
从7户中选择4户,一共有35种可能的收视组合方式。电视台可能会发现,他们所选择的4户中,没有一家在收看他们的节目,调查的收视率为0%,这种情况一共有5种可能组合,占总数的1/7;也可能会统计到只有1家在收看,调查的收视率25%,这种情形有10种组合,占2/7;还有一种情况,占剩下的4/7,有两家在收看,调查的收视率50%。无论哪种情况的收视率都不会恰好等于28.57%。
可是电视台并不需要很精确的收视率数据,只要它在合理的范围就行了。
我们把真实收视率28.57%这个数据对称地放大到18.57%〜38.57%,就会看到,调查收视率25%的那个结果已经被包含在其中。这个时候,如果调查结果为25%,电视台就有2/7的可能性是正确的;如果把范围再对称地放大到6.57%〜50.57%,那么还能把调查收视率50%的情形也包括进来,电视台对调查结果的把握就增大到6/7。
但是如果调查的结果偏偏为0%,那意味着什么?这种情况只有1/7的可能会发生,是概率最小的事情,如果最不可能的事情真的发生了,那电视台也只有相信它是真的,节目收视率确实为0%了,这个节目该被撤换掉。
可见,在进行调查的时候,只要把允许的误差范围充分放大,就能有足够的把握说,我们的调查结果是正确的。前面我们列举的用户和调查数字都太小了,所以要把误差范围放大,才会有足够的把握。在这个例子中,只要把几个数字稍微调大一点,误差范围就会大大缩小,而把握反而会提高。例如,当用户数变为20,其中有3家收看该节目,真实收视率为15%,电视台调查数为10家时,就会有79%的机会,收视率在10%〜20%之间。真正的电视台用户一般都在数十万以上,只要调查30个以上的用户,就可以有99%甚至更高的把握,把调查误差控制在足够精确的范围内。我们完全可以相信调查的结果,而用不着给所有的用户打电话。
这种只对一部分客户进行的调查叫抽样调查。抽样调查非常的有用,要知道大片的森林里有多少棵树,只需选择几个小块的区域进行调查,算出平均密度再乘上总面积,而不用去摸遍每一个山头;要知道灯泡的平均使用寿命,只要拿少量灯泡进行试验,而不用把所有的灯都用到坏;在大型养鸡场里,要知道明天有多少母鸡会下蛋,也只用挑选几十只验一验就够了,而不用去摸每只鸡的屁股。抽样调查能给我们的生活带来很大的方便。
保险公司也不必去统计每个人的真实寿命,它只要抽样调查,一样可以获得满意的数据。看上去,抽样调查真是个投机取巧的好方法。
不过,别高兴得太早。
导致*的预言
抽样调查的结果不是绝对正确的,即使有99.9%的把握,仍然有0.1%的意外会超出误差允许的范围,那是不可避免的,是可以允许的正常错误。然而,有些抽样调查却会产生非正常的错误。
1936年美国总统选举开始了,大部分人都认为现任总统罗斯福——民主党的候选人——将会胜利,但是有个杂志《文学文摘》却不以为然,因为他们邮寄出1000万份调查问卷,收回了其中的240万份,调查结果显示,共和党人兰登将会以绝对优势胜出。
1000万的调查样本,这么大规模的问卷调查,足以让人相信,罗斯福的总统政治生涯结束了。但结果却出乎杂志社的预料,罗斯福顺利当选美国总统,后来成为二次大战时领导世界人民抗击法西斯的三巨头之一。由于错误的预测,读者对这本杂志产生了严重的信任危机,大选结束仅仅几个月,《文学文摘》就*了。
《文学文摘》的问题出在哪里呢?原来,他们是按电话簿上的地址寄出的调查问卷。虽然今天电话早已经进入了千家万户,但在20世纪30年代的美国,刚刚经历过一场巨大的经济危机,失业人数高达900万(而那时美国总人口还不足1亿),大部分人的工资只有危机以前1/3的水平,只有一部分相对富裕的家庭用得起电话这种“高科技产品”。电话只有富人才有,富人大多支持共和党人兰登,这就是《文学文摘》调查结果的来历。而当时美国穷人大多支持罗斯福,在人数上,穷人比富人多得多,由于在选举上每个公民都有1票,庞大的穷人数量造成了这次抽样调查结果的巨大的偏差。
这是历史上非常有名的抽样统计失败的案例,它说明抽样调查的成败,有时不在于调查数据量的多少,而在于是否能做到完全随机地抽取样本。还是那次总统选举,另外有一个人盖洛普,他只是在大街上随机找了2万人进行调查,就获得了正确的结果——罗斯福将获胜。
所以,即使抽样调查,也不能抓起电话就做,还是首先要考虑一下,获取的样本必须是一个全面的群体。
人均收入的骗局
在统计调查中,即使样本本身具有代表性,如果我们对统计数字进行简单化处理,得出的结论也有可能与实际情况相差甚远。
假设我们从大街上随便找了11个人,得到了他们月工资的情况:前2人的工资为200元,第3到第6人的工资为300元,紧接着,后面4人的工资依次为400、500、600和700元,最后1人的工资高达5000元。
这11个人的平均工资是800元。把这个数字拿给不知情的人看,他通常会这样认为:“啊,看来这个地区大多数人都能过上月收入800元的生活。”但实际上,这11个人中,只有1个人的薪水高于800元,而另外的10个人的薪水都低于800元。假如该地区的贫困线是700元,只从平均数上看,我们会觉得这个地区的人基本都生活在贫困线以上,但实际情况却是,绝大多数人都挣扎在贫困线以下。
看来,对统计数字进行简单的平均,不一定能反映真实情况,那个月收入5000元的人对平均数影响很大。我们需要从不同的角度对随机抽样的结果做出分析。比如,在上面的这个例子中,用众数或中位数更能反映该地区人们的真实收入情况。
众数是指在数项上出现次数最多的值,比如在上面的统计数字中,收入在300元的人数最多,那么这组数据中,众数就是300元。众数可以让我们了解,这个地区收入在哪个位置的人最多。中位数指顺序排列(从大到小或从小到大均可)的数项中,位于中间项的值。在上面的数据中,第六个人的收入是300元,因此中位数是300元。看到中位数,我们就知道这个地区中,大约有一半的人收入在300元(含)以下,另一半的人收入在300元(含)以上。
有了众数和中位数,我们就不会被平均数欺骗了。在财富收入不均的社会中,如果我们看到某地的平均工资比较高,就以为这地方大部分人的工资收入都不错,这就大错特错了。其实这个地方大部分普通人的工资收入都很低,只是极少数人的收入高得离谱,把平均收入给拉上去了。
我们还需要统计指数
抽样调查的目的也是为了了解整个群体,实际上统计的目的就是为了了解整体的状况,那我们用什么来衡量这些状况呢?有些用平均数,如平均年龄、平均价格,有的用总数,如人口总数、总价值等,但是这些都是表示某一时刻的数值,不能反映它们随时间变化的情况,为了反映总体状况的变化,我们需要“指数”。
我们经常能听到“指数”这个词,股市里有股票指数,像国内的上证综合指数,美国的纳斯达克指数,看指数就知道股市的涨落;国家和地方政府每年要发布物价指数,代表那年的物价的水平。
指数到底是什么呀?是不是只有国家大事才能使用指数呢?
答案可能会让你大跌眼镜,因为你和我都可以使用指数,只要你关心的数字会随时间变化,而且即使是小学毕业生也可以了解怎么去编指数。
让我们来看个例子吧。
假如你是个初中生,第一学期的七门课的总分刚好500分,第二学期,考了650分,分数是第一学期的130%,第三学期考600分,是第一学期的120%,以后每期都和第一期的成绩对比,画成图表,就可以知道,相对于第一期,你的成绩变化了百分之多少,这个变化了的百分比就是你的成绩的总分指数。
我国上海证券交易所的上证指数正是这样一种“总分”指数。
上海证券交易所于1990年11月26日刚刚成立那一天,所有股票的市场的总价格设为100点,如果以后某一时刻是1200点,就是说相对于成立初期时,这一刻市场的总价值已经是那时的12倍。和你的总分指数不同,上证指数关心的是市场上所有股票的总价值,因此,不断有新的股票加进去,也不影响指数的衡量作用。而对于你的成绩,如果在第三学期时由7门课程变成了8门,总分指数就不再有意义了,这个时候,最好用平均分编写指数。
物价指数就是这么一种平均型指数。
我们生活用品的价格每天都可能在变化,几年前价值8000块的电脑配置,现在可能只值3000元;昨天大白菜还是5毛钱一斤,今天就会听到妈妈在和邻居的大妈议论,下雪了,所有的青菜都涨到了1块以上。不同的东西价格有升有降,但是我们的支出整体上是上升了还是下降了呢?这就需要物价指数来衡量。电脑好几千元一台,但是我们好几年也不会更换它,肉呀、菜呀虽然只几元钱一斤,但是我们哪天也少不了它们,因此,在编制物价指数时,我们要按物品对我们生活的影响,给不同的物品在物价指数中以不同比率。
真实的物价指数需要了解许许多多物品的价格变化,但是现在,让我们先用电脑价格和肉价来编一个简单的物价指数。
同样的电脑去年5000元/台,今年3000元/台,按电脑价格对生活的影响,在物价指数中占0.1%,而肉去年5元/斤,今年8元/斤,在物价指数中占了剩下的99.9%,现在让我们看看物价整体是涨了还是降了。
去年的平均物价是5000×0.1% 5×99.9%=9.99元,今年的是3000×0.1% 8×99.9%=10.99元,今年平均物价是去年的110%(10.99÷9.99×100%),如果以去年的物价为基础,今年的物价指数就是110%。
尽管电脑价格下降了2000元,而肉价只涨了区区的3元钱,可我们总体的生活支出依然上涨了10%。
与股票指数不同,物价指数用百分比表示。
物价指数按用途不同,又有商品零售物价指数、消费品物价指数,这些与我们的日常支出息息相关,另外的像工业品价格指数、生产资料价格指数,会直接影响工业,对我们的生活只会有间接的影响。
扑朔迷离的相关系数
现在,我们更进一步,统计数字具有代表性,分析方法也很正确,那么是否就一定能得出正确的结论呢?未必。即使你用正确的方法分析统计数字,也不一定能得出正确的结论,甚至可能会得出莫名其妙的结论,比如“当中国人口增加的时候,美国国内的犯罪率就升高”这个结论。
在20世纪50年代后期,由于战争结束,中国人口增加的速度上升了。而与此同时,由于文化等方面的原因,美国很多青少年感到迷茫,出现了“垮掉的一代”,导致全国犯罪率在那些年中连续上升。从统计数字中,我们可以看到,中国人口和美国国内犯罪率都在同步增长,我们能否由此得出结论:中国人口增加导致了美国国内犯罪率的上升?或者反之,美国国内犯罪率的上升导致了中国人口的增加?
显然,两个结论都很荒唐。确实,两者在数字方面出现了同步上升的情形,呈现出近乎正比的关系,或者说,两者之间的相关系数非常高。但实际上它们之间没有任何关系,表现出高度的相关性纯属偶然。所以当我们面对统计数字的时候,我们的结论要考虑相关性的问题。在某些情况下,有很高的相关系数,并不意味着两者间就有因果关系,它们可能什么关系也没有。我们再来看看下面的例子:
小儿麻痹症是一种已经消失了的传染病。在发达国家以前的调查中,曾发现这种病的发病率和饮料的销售量有很大关系,它们的相关系数高达0.8。难道是饮料不卫生,使小儿麻痹症是通过饮料传染?可是在第三世界国家,市场上几乎没有饮料卖,发病率和发达国家却相差无几。这背后隐藏的因素是什么呢?
是温度在作怪!引起小儿麻痹症的病毒传染力随着气温的上升而增强,饮料的销售也和温度有着同样的关系,难怪饮料销售会和发病率一起增长。
原来很高的相关系数,也有可能是第三种因素在捣鬼,并不意味着两者间就有因果关系。
有个企业对自己连续好几年的销售额和广告费做了分析,发现两者相关系数是0.86,于是得出结论,他们的产品广告费与销售量成正比。企业在次年大力加大了广告的投入,可效果远没有估计的那么大。是什么导致这么大的偏差呢?广告费和销售额可的确是有因果关系的呀!
请来专家分析后发现,原来前几年该企业产品的价格也一直在下降,直到上年才稳定下来。产品价格的下降,本身就极大地刺激了销售,销售量的增长不仅可以弥补价格下降带来的损失,还使销售额有了新的增长,再加上这几年广告费也增加了投入,使销售额有了更进一步的增长。分析人员分析时只注意到广告费与销售额同比增长,却没有考虑价格下降对销售的刺激作用。而上年价格正好稳定下来,广告费对销售额的实际影响才显露出来。
原来即使有因果关系的事物间,表面上看起来有很高相关系数,也可能是我们忽略了别的重要因素的结果。
在一些更复杂的变化中,统计数字得出的结论更显得扑朔迷离,这需要我们对各种因素进行更全面的分析,例如,大气二氧化碳含量与全球变暖的关系。
工业革命后,由于人口大量增加,石油和煤炭的燃烧,释放出大量的二氧化碳气体,加上植被的破坏,大气中二氧化碳浓度由0.028%上升到0.039%,而同期世界的平均气温上升了0.7℃。要知道,过去的1万年地球气温一共才上升了3℃。
那么,全球平均气温升高是否由二氧化碳的排放引起呢?从相关系数的角度看,我们不能轻易地下结论。因为大气是个非常复杂的系统,影响气温变化的因素多种多样,如太阳活动、火山活动、气流变化等,我们对大气的变化规律还了解得太少,凭什么把气温的上升都归罪到二氧化碳头上呢?会不会背后有其他的原因引起二氧化碳和气温同时增长呢?又或者全球变暖和二氧化碳增加其实根本就没有关系,只是地球偶然发了一次“高烧”,不久以后温度就会回到正常?
在塑料大棚里,提高二氧化碳的含量可以使大棚温度升高;金星的大气成分主要是二氧化碳,由于温室效应,那里的大气温度可以高达400℃,这些都是间接证据,说明二氧化碳含量和全球变暖的相关性很大。虽然从统计学的角度,我们不能排除其他因素导致全球变暖的可能,不过我们还是基本可以认定,二氧化碳是全球变暖最大的“嫌疑犯”。
统计数字告诉了我们很多信息,然而如果我们对统计数字不加分析,或者错误地分析了统计数字,我们就会被它误导,被它欺骗。比如前面提到的例子,样本选择的错误会让《文学文摘》*;对人均收入的草率分析会让我们忽视劳苦大众的疾苦;没有了统计指数,我们就无法比较白菜和电脑的价格波动哪一个对我们影响更大;不分析相关性的真伪,我们就会得出荒唐的结论⋯⋯的确,统计是淘金的工具,不过并非每个握着淘金筛的人,都能淘到金子,要从统计数字中淘到真金,我们需要一双正确分析统计数字的火眼金睛。