本文对正在成长的初、中级数据分析人员相当友好,也特别适合产品经理、数据运营等相关岗位。篇幅较长,可以先马后看。
本号会持续更新体系化的数据分析技能、思维文章,文章内容来源都是数据禅心团队超十年累积的经验。
这些经验已经被集结成书,也已经被制作成付费课程。
但在这个号,大家可以免费学习,请关注“数据禅心DataZen”不要迷路。
如果看完能学以致用,即使不点赞收藏,就是对码字老师最大的支持啦~
本文转载自曾津老师知乎账号“恒河沙'DataZen”。
曾津:
首位CDAIII 数据科学家
资深数据产品经理
商业分析总监
从事数据分析相关的工作超10年,
数据分析实战-方法工具与可视化》作者
本文为大家介绍如何用统计方法进行指标预警。本文为《数据分析七武器》系列文章中的第二篇。介绍的是七武器中的第3种武器——异常值分析。【文中附操作的python代码】
其他文章传送门为:
【成长篇】数据分析七武器(Ⅰ):现状分析
本文约6000字,阅读时长10分钟左右。码字不易,需要您的鼓励,点赞、收藏和喜欢~~
数据分析工具中的三大方向和七种武器
武器3 异常值发现异常值发现是指数据分析师对业务指标是否发生异常进行判断,并且及时反馈给业务线负责同事处理的工作流程。
异常值发现的第一步是合理地界定异常值。
什么是异常值呢?异常值是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值,也称为离群值(outlier)。
在数据分析师的日常工作中,通常使用两类方法来判断异常值:
一类方法是物理判别(直接通过阈值进行判断)。比如数据分析师人为规定,如果某一天的收入下降5%以上就算是异常。这种人为设定阈值的方法相对来说方便、快捷、明了,但是这种方法过于主观,容易出错。
另一类方法是通过统计的手段去发现异常值。而通过统计手段发现异常值的方法有两种:西格玛法则和四分位差法。
我们常用两类方法来发现异常值
1. 西格玛法则西格玛法则是通过统计学方法判断异常值的一种方法。西格玛法则中的“西格玛”就是我们前文所介绍的标准差σ,代表数据波动。在西格玛法则下,如果指标中的某一个数值表现特别极端,超出了正常的波动范围,我们就认为该指标变动达到这个数值水平发生概率比较小,我们就认为这个数值是异常值。
在20世纪80、90年代,在工业界曾经大力倡导着一种叫做“六西格玛”的生产标准。许多企业用这种标准来衡量一个流程的完美程度,显示每1百万次操作中发生多少次失误。“六西格玛”意味着每一百万次操作中只有不到3.4次操作失误。西格玛法则会应用数据的概率分布信息来判断异常值。
西格玛法则首先假定我们的指标服从正态分布。正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。高斯是非常伟大的数学家,德国的10马克的纸币和硬币上就印有或者刻有高斯的像或者正态分布曲线。
正态分布描述了这样一种概率分布的规律:一组数据总是在均值周围波动,越靠近均值的取值出现概率越大,越远离均值的取值出现概率越小。比如中国18-44岁男性平均身高均值为169.7厘米。那么在所有该年龄段的中国男性中,大部分人的身高在这个均值周围波动。离169.7厘米这个均值越近的身高,出现的概率越高;反之离这个均值越远,概率越低。著名体育明星姚明身高226cm,比18-44岁男性身高平均值高出56cm还多。但是,我们周围身高如姚明这样的巨人毕竟少之又少。大部分男性的身高还是在均值上下波动。再比如人们的智商一般均值在100左右,像爱因斯坦或者莫扎特那样智商大于160的人毕竟是少数。大部分人都是智商在100左右的普通人。
我们可以根据高尔顿钉板机来模拟正态分布。
https://www.shuxuele.com/data/quincunx.html
关于高尔顿的介绍,我们可以看如下链接:
高尔顿钉板的统计意义-R实现 - 郝hai - 博客园
正态分布拥有倒钟型的分布曲线。