推断统计,描述性统计和推断性统计方法

首页 > 大全 > 作者:YD1662022-12-17 00:43:22

数据与智能 本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出7篇精品原创。同时,我们会关注和分享大数据与人工智能行业动态。欢迎关注。

来源 | Data Science from Scratch, Second Edition

作者 | Joel Grus

译者 | cloverErna

校对 | gongyouliu

编辑 | auroral-L

全文共4998字,预计阅读时间30分钟。

第七章 假设与统计判断

7.1 统计假设检验

7.2 案例:掷硬币

7.3 置信区间

7.4 P-hacking

7.5 案例:运行A/B测试

7.6 贝叶斯推断

7.7 延伸学习

深谙统计之道,方为人中之龙。

——萧伯纳

具备以上统计学和概率理论知识以后,我们接着该做什么呢?数据科学的科学部分,乃是不断针对我们的数据和生成数据的机制建立假设和检验假设。

7.1 统计假设检验

通常,作为数据科学家,我们常常需要检验某个假设是否成立。有时,假设是诸如“这枚硬币是均匀的”“数据科学家喜欢 Python 胜过 R”或“如果人们点开某个突然弹出的小广告,广告的关闭按钮又小又难找,那么大家更倾向于离开这个页面,压根不会阅读”等可以被翻译成统计数据的断言。在各种各样的假设之下,这些统计数据可以理解为从某种已知分布中抽取的随机变量观测值,这可以让我们对这些假设是否成立做出论断。

典型的步骤是这样的,首先我们有一个零假设 H0,它代表一个默认的立场,而替代假设H1代表我们希望与零假设对比的立场。我们通过统计来决定我们是否可以拒绝 H0,即判断它是否错误。通过举例能更直观地说明这个过程。

7.2 案例:掷硬币

假设有一枚硬币,我们试图判断它是否均匀,即任何一面朝上的可能性是否相等。首先,假设硬币落地后正面朝上的概率为 p,所以我们的零假设为硬币均匀,即 p=0.5。我们要对比替代假设 p≠0.5 来检验这个假设。

具体来说,首先掷硬币 n 次,将出现正面朝上的次数记为 X。每次掷硬币都是一次伯努利试验,意味着 X 是二项式随机变量 Binomial(n,p),(正如第 6 章中所讲到的)可以用正态分布来拟合:

推断统计,描述性统计和推断性统计方法(1)

只要一个随机变量服从正态分布,我们就可以用 normal_cdf 来计算出一个变量位于(或不在)某个特定区间的概率:

推断统计,描述性统计和推断性统计方法(2)

推断统计,描述性统计和推断性统计方法(3)

或者反过来,找出非尾区域,或者找出均值两边的(对称)区域,这个区域恰好对应特定的可能性。比如,如果我们需要找出以均值为中心、覆盖 60% 可能性的区间,那我们需要找到两个截点,使上尾和下尾各覆盖 20% 的可能性(给中间留出 60%):

推断统计,描述性统计和推断性统计方法(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.