我们得到了一个惊人的结果,P(A|B)约等于0.019。也就是说,即使检验呈现阳性,病人得病的概率,也只是从0.1%增加到了2%左右。这就是所谓的"假阳性",即阳性结果完全不足以说明病人得病。
或许换成这个公式 P(A|B)=P(A∩B)/B,看起来更加直白写:
阐释:
如果没有误报,那么得病率:.001*.99
如果是误报,那么得病率为:.05*(1-.0001),
所以:
p(A|B)=.001*.99/[.99*.001 .05*(1-.0001)]=.019
为什么会这样?为什么这种检验的准确率高达99%,但是可信度却不到2%?答案是与它的误报率太高有关。
(【习题】如果误报率从5%降为1%,请问病人得病的概率会变成多少?)
有兴趣的朋友,还可以算一下"假阴性"问题,即检验结果为阴性,但是病人确实得病的概率有多大。然后问自己,"假阳性"和"假阴性",哪一个才是医学检验的主要风险?
再来一个类似案例:https://www.zhihu.com/question/21134457/answer/169523403
一种癌症,得了这个癌症的人被检测出为阳性的几率为90%,未得这种癌症的人被检测出阴性的几率为90%,而人群中得这种癌症的几率为1%,一个人被检测出阳性,问这个人得癌症的几率为多少?
猛地一看,被检查出阳性,而且得癌症的话阳性的概率是90%,那想必这个人应该是难以幸免了。那我们接下来就算算看。
我们用 A 表示事件 “测出为阳性”, 用 B1 表示“得癌症”, B2表示“未得癌症”。根据题目,我们知道如下信息:
P(B1)=.01
P(B2)=.99
P(A|B1)=.9
P(A|B2)=.1
那么我们现在想得到的是阳性的情况下,得癌症的几率
P(B1,A)=P(B1)*P(A|B1)=.01*.09=0.009;
这里P(B1,A)表示的是联合概率,得癌症且检测出阳性的概率是人群中得癌症的概率乘上得癌症时测出是阳性的几率,是0.009。同理可得得癌症且检测出阳性的概率:
P(B2,A)=P(B2)*P(A|B2)=.99*.1=.099;
这个概率是什么意思呢?其实是指如果人群中有1000个人,检测出阳性并且得癌症的人有9个,检测出阳性但未得癌症的人有99个。可以看出,检测出阳性并不可怕,不得癌症的是绝大多数的,这跟我们一开始的直觉判断是不同的!可直到现在,我们并没有得到所谓的“在检测出阳性的前提下得癌症的 概率 ”,怎么得到呢?很简单,就是看被测出为阳性的这108(9 99)人里,9人和99人分别占的比例就是我们要的,也就是说我们只需要添加一个归一化因子(normalization)就可以了。
所以阳性得癌症的概率 P(B1|A)= .009/(.099 .009)≈.083,
阳性未得癌症的概率 P(B2|A)= .099/(.099 .009)≈.917 。
这里 P(B1|A),P(B2|A)中间多了这一竖线
成为了条件概率,而这个概率就是贝叶斯统计中的 后验概率!而人群中患癌症与否的概率 P(B1),P(B2) 就是 先验概率!我们知道了先验概率,根据观测值(observation),也可称为test evidence:是否为阳性,来判断得癌症的后验概率,这就是基本的贝叶斯思想,我们现在就能得出本题的后验概率的公式为:
由此就能得到如下的贝叶斯公式的一般形式。
我们把上面例题中的 A 变成样本(sample) x , 把 B 变成参数(parameter) \theta , 我们便得到我们的贝叶斯公式:
可以看出上面这个例子中,B 事件的分布是离散的,所以在分母用的是求和符号 Σ 。那如果我们的参数θ的分布是连续的呢?没错,那就要用积分,于是我们终于得到了真正的 贝叶斯公式 :
其中π指的是参数的概率分布,π(θ)指的是先验概率,π(θ|x)指的是后验概率, 指的是我们观测到的样本的分布,也就是似然函数(likelihood),记住竖线 | 左边的才是我们需要的。其中积分求的区间Θ指的是参数 θ 所有可能取到的值的域,所以可以看出后验概率π(θ|x) 是在知道 X的前提下在 Θ域内的一个关于 θ 的概率密度分布,每一个θ都有一个对应的可能性(也就是概率)。
作者:徐炎琨
链接:https://www.zhihu.com/question/21134457/answer/169523403
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
一个更好理解的例子:
链接:https://www.zhihu.com/question/51448623/answer/175907274
假设你是一个领导者,或者说,山寨的头目好了。
你是远近闻名的土匪头子。哈哈
听闻最近官兵换统领了,可能要来剿匪了。这里驻扎的军兵每5年都会换一届统领,新官上任三把火,都想拿你们来开刀。不过每次,你都带领兄弟们打退了官兵的围剿。
这次不同了,听说换的是个厉害的角色。因此,你让二头领派人下山去打探消息,看看是不是要来攻山。
打探的人回来了,支支吾吾地说:官兵不会来,因为新来统领他妈生病了,回家探病去了。
你这个时候,信不信他的话?
你看这个回报的人,变毛变色的,说话吞吞吐吐。但是,他也有可能是因为没见过你大头领,回话的时候,有些紧张害怕。
你作为一个受过高等教育的人(学过概率论,贝叶斯定理的人),心理开始盘算:
1. 官兵每5年来一次,那么今年来的概率就是
1/5=20%
2. 派出去打探的这小子,说官兵不会来,那么今年来的概率是:
0
3. 嗯?派出去这小子,是不是可靠,不会说的是假话吧?
于是,你向旁人了解了一下:
1. 三头领劝你好好考虑下,说这个小子虽然人机灵,但是经常是十句话里面有七八句是假的,嘴里没实话。
于是你心理又开始盘算:
1. 十之七八都假话?能吗?
2.姑且认为三当家的话是真的。
3.那么派出去这小子,说假话的概率就是 70%~80%:
就按75%算把,
说真话的概率就是25%
4.那么如果他说的真话:
他说官兵不来,官兵就不来的概率是:25%*80%=20%
他说官兵来 , 官兵就来的概率是 :25%*20%=5%
5. 如果他说的假话:
他说官兵不来,官兵 来的概率是:75%*20%=15%
他说官兵来 ,官兵不来的概率是:75%*80%=60%
6. 那么他这次口口声声说了:官兵不来
那么根据5.的结果:
官兵来的概率是 15%
官兵不来的概率是 20%
比率是: 来/不来=15/20=3/4
也就是说,来的概率是3/7 =42.86% 不来的概率是4/7=57.14%
【注意】:贝叶斯定律是直接将 15% 20%做分母,两个概率做分子,分别重新计算其条件概率。
对你一个决策者来说,这样的比率,太高,显然没有什么意义:
于是你决定再派一个自己的亲信兄弟下去打探:
三天后回来,回报结果还和刚才结果一样:官兵不会来,统领回家了。
这次是你的亲信。应该将概率一下子修正为:
官兵来:0 官兵不来 100%
但是,这个亲信,虽然忠诚,明显不够机灵。他在打探时,可能被欺骗。他虽然不会骗你,但难保他被别人骗。因此,他的话只能做参考,也不可完全相信:
0.参照之前那个兄弟的结果:
3/7来,4/7不来
1.考虑你的亲信被欺骗的概率为 30%
2.那么同样:
他被骗:
他说官兵不来,官兵不来的概率是:3/7*30%=12.86%(实际官兵会来)
他说官兵来, 官兵来的概率是 :4/7*30%=17.14%
他没被骗:
他说官兵不来,官兵不来的概率是:4/7*70%=40%(实际官兵不会来)
他说官兵来, 官兵来的概率是 :3/7*70%=30%
3. 于是他向你报告官兵不来,那么:
来/不来=12.86/40
于是官兵来的概率就是
12.86/(12.86 40)=20.46%
看到20.46%?这个概率还是太大,你还是不放心,决定带上二当家,自己亲自下山一趟。
于是你门分头走街串巷,茶馆酒肆里转悠,四处打探。
最后,还是得出相同的结果。
于是你将结果修正为:
官兵来的概率:0,不来的概率:100%
最后你和二当家在一家酒馆碰头:
你说,官兵不来
二当家说:我看不一定,我摸到了官兵驻扎的地方,看到了官兵在演习调动。
听了这个消息,你大惊失色。你感觉自己可能也被骗了,但是凭自己的经验,被骗的可能性很小只有5%的可能性。
于是,你和二当家,约定今晚,趁着月色又摸来了一趟军营。发现确实在调动军队。
你心里想:我的乖乖,幸亏过来看了看,否则都没准备,就被官兵包饺子了。
你一下子,又将概率修正为:
官兵来:100%,官兵不来:0
仔细观察了一下动静,听了听。军营里有人小声说话,你和二当家趴在外面听:
士兵甲:哎?老四,你知道这回咱们要调哪里去?
士兵乙:那我哪里知道,那是上头的事情。
士兵甲:嘿!我劝你,把你那点银子趁早寄回家去吧。再晚,怕是没机会了。
士兵乙:老三,你瞎说啥,你知道啥,又要打清风寨?
士兵甲:嘿,打啥清风寨啊。要打打仗了。
你心里想,不打你们山寨?打什么打仗?最近有啥大事?于是你又将那个心理的概率修正为:
官兵来:0%,官兵不来:100%
这个时候,你突然意识到,自己的思维好像不太对。这后面几次,信息全是压倒性的修正,一次一次,不是0%就是100%,完全不像一个受过高等教育的山寨头领。
于是,你默默地多计算了两步。假设这个士兵说真话的概率为50%,那么他说官兵不去,
那么,结合刚刚的概率(来的概率:20.46%,不来的概率:79.54%)
1. 他说真话 :
他说官兵不来,官兵不来的概率是:79.54%*50%=39.77%(实际官兵会来)
他说官兵来, 官兵来的概率是 :20.46%*50%=10.23%
2.他说假话:
他说官兵来,官兵不来的概率是:20.46*50%=10.23%(实际官兵不会来)
他说官兵不来,官兵来的概率是 :79.54%*50%=39.77%
3.最终算出来,官兵来的概率是:
20.46%
你发现,概率居然没变?你明白了,你假设说真话的概率为50%,那相当于没有任何信息量,等于他什么也没说。妈*的!你作为受过高等教育的土匪头子,还是情不自禁地骂了一句。
于是你接着听
士兵甲接着说:嘿嘿,皇帝老子要打台湾了。收拾了三藩,接下来收拾台湾了,我们都归施琅统领。
士兵乙:真的假的,这你清楚?瞎掰吧?
士兵甲:嗨,我骗你做啥?今天我听李二嘎子说的,他说他二叔在施琅手下,他二叔告诉他的。
士兵乙:呵呵,李二嘎子的话你也信,那家伙,十句有两句是假话,你信他?
.....
你听到这里,已经敏锐的觉察到事情的原理了,朝着二当家使了个眼色,你们悄悄撤了。
为什么?因为你算了一下,李二嘎子的话可信吗?根据士兵乙的估计这个人,话里80%真话,20%假话,于是你开始计算了:
1.李二嘎子说真话:
他说官兵要打台湾不来,那么官兵真不来: 80%*79.54%=63.63%
他说官兵不打台湾要来,那么官兵要来 :80%*20.46%=16.37%
2.李二嘎子说假话
他说官兵要打台湾不来,那么官兵要来 : 20%*20.46%=4.09%
他说官兵不打台湾要来,那么官兵不来 :20%*79.54%=15.91%
3.综合下来,官兵要来的概率是
4.09%/(4.09% 63.63%)=6.04%
看样子,官兵不来的概率很大。但是也不能掉以轻心。所以,你决定,回去之后,不必过份紧张,但要提高警戒,并不断派兄弟下来打探情况。
这样看来,应该是可以决策了把。。。
而做决策,就是根据贝叶斯定律,不断用后验概率来修正先验概率的吧。
参考文章:
从贝叶斯方法谈到贝叶斯网络
Chapter 1 贝叶斯推断的思想
全栈必备 贝叶斯方法
真的理解贝叶斯公式吗?
全概公式和贝叶斯公式的理解
贝叶斯推断及其互联网应用(一):定理简介
机器学习(一) —— 浅谈贝叶斯和MCMC(推荐阅读)
转载本站文章《贝叶斯公式由浅入深大讲解—AI基础算法入门》, 请注明出处:https://www.zhoulujun.cn/html/theory/math/2017_0913_8050.html