两天过后,刘强西突然浑身发痒,小天就想起来是不是刘强西对猫过敏,于是刘强西就做了一个简单的过敏检测:
- 对于真的有这种过敏的人,检测有 80% 的机会给回 "有" 的结果;
- 对于没有这种过敏的人,检测有 10% 的机会给回 "有" 的结果(而这种情况,称之为"假阳性")。
从实际情况看,京西大旅馆的村子有 1% 的人有这种过敏,而刘强西的检测结果是 "有",那么刘强西真的有这种过敏的可能性有多大?
- P(过敏) 是有这种过敏的概率 = 1%
- P(有|过敏) 是对于真的有这种过敏的人,检测的结果是 "有" = 80%
- P(有) 是对于任何人,检测的结果是 "有" = ??%
糟糕!我们并不知道检测结果是 "有" 的一般可能性是多少……
不过我们可以把有这种过敏和没有这种过敏的概率相加来求这个一般概率:
- 1% 的人有这种过敏,检测对 80% 的这些人说 "有"
- 99% 的人没有这种过敏,检测对 10% 的这些人说 "有"
把概率加起来:
P(有) = 1% × 80% 99% × 10% = 10.7%
就是说大约 10.7% 的人会得到 "有" 的检测结果。
那此时我们就可以计算出,刘强西真正对猫过敏的概率为
P(过敏|有) = 1% × 80%/10.7%= 7.48%
所以此时也就有了贝叶斯定理特别版:
写在最后
纵观2600年数学文明史,许多看似千篇一律的数学公式定理,却让这个世界发生了翻天覆地的改变,贝叶斯公式如此,泰勒公式、洛必达法则亦如此...
虽然贝叶斯统计作为常用的基础算法,但千万不要小看它的作用,它在机器学习中是占据重要的一席之地,尤其是在数据处理方面,针对事件发生的概率以及事件可信度分析上具有良好的分类效果。