xt正常值,xt代表什么疾病

首页 > 实用技巧 > 作者:YD1662024-02-14 01:29:04

本文对正在成长的初、中级数据分析人员相当友好,也特别适合产品经理、数据运营等相关岗位。篇幅较长,可以先马后看。

本号会持续更新体系化的数据分析技能、思维文章,文章内容来源都是数据禅心团队超十年累积的经验。

这些经验已经被集结成书,也已经被制作成付费课程。

但在这个号,大家可以免费学习,请关注“数据禅心DataZen”不要迷路。

如果看完能学以致用,即使不点赞收藏,就是对码字老师最大的支持啦~

本文转载自曾津老师知乎账号“恒河沙'DataZen”。

曾津:

首位CDAIII 数据科学家

资深数据产品经理

商业分析总监

从事数据分析相关的工作超10年,

数据分析实战-方法工具与可视化》作者

本文为大家介绍如何用统计方法进行指标预警。本文为《数据分析七武器》系列文章中的第二篇。介绍的是七武器中的第3种武器——异常值分析。【文中附操作的python代码】

其他文章传送门为:

【成长篇】数据分析七武器(Ⅰ):现状分析

本文约6000字,阅读时长10分钟左右。码字不易,需要您的鼓励,点赞、收藏和喜欢~~

xt正常值,xt代表什么疾病(1)

数据分析工具中的三大方向和七种武器

武器3 异常值发现

异常值发现是指数据分析师对业务指标是否发生异常进行判断,并且及时反馈给业务线负责同事处理的工作流程。

异常值发现的第一步是合理地界定异常值。

什么是异常值呢?异常值是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值,也称为离群值(outlier)。

在数据分析师的日常工作中,通常使用两类方法来判断异常值:

一类方法是物理判别(直接通过阈值进行判断)。比如数据分析师人为规定,如果某一天的收入下降5%以上就算是异常。这种人为设定阈值的方法相对来说方便、快捷、明了,但是这种方法过于主观,容易出错。

另一类方法是通过统计的手段去发现异常值。而通过统计手段发现异常值的方法有两种:西格玛法则和四分位差法。

xt正常值,xt代表什么疾病(2)

我们常用两类方法来发现异常值

1. 西格玛法则

西格玛法则是通过统计学方法判断异常值的一种方法。西格玛法则中的“西格玛”就是我们前文所介绍的标准差σ,代表数据波动。在西格玛法则下,如果指标中的某一个数值表现特别极端,超出了正常的波动范围,我们就认为该指标变动达到这个数值水平发生概率比较小,我们就认为这个数值是异常值。

在20世纪80、90年代,在工业界曾经大力倡导着一种叫做“六西格玛”的生产标准。许多企业用这种标准来衡量一个流程的完美程度,显示每1百万次操作中发生多少次失误。“六西格玛”意味着每一百万次操作中只有不到3.4次操作失误。西格玛法则会应用数据的概率分布信息来判断异常值。

西格玛法则首先假定我们的指标服从正态分布。正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。高斯是非常伟大的数学家,德国的10马克的纸币和硬币上就印有或者刻有高斯的像或者正态分布曲线。

正态分布描述了这样一种概率分布的规律:一组数据总是在均值周围波动,越靠近均值的取值出现概率越大,越远离均值的取值出现概率越小。比如中国18-44岁男性平均身高均值为169.7厘米。那么在所有该年龄段的中国男性中,大部分人的身高在这个均值周围波动。离169.7厘米这个均值越近的身高,出现的概率越高;反之离这个均值越远,概率越低。著名体育明星姚明身高226cm,比18-44岁男性身高平均值高出56cm还多。但是,我们周围身高如姚明这样的巨人毕竟少之又少。大部分男性的身高还是在均值上下波动。再比如人们的智商一般均值在100左右,像爱因斯坦或者莫扎特那样智商大于160的人毕竟是少数。大部分人都是智商在100左右的普通人。

xt正常值,xt代表什么疾病(3)

我们可以根据高尔顿钉板机来模拟正态分布。
https://www.shuxuele.com/data/quincunx.html
关于高尔顿的介绍,我们可以看如下链接:
高尔顿钉板的统计意义-R实现 - 郝hai - 博客园

正态分布拥有倒钟型的分布曲线。

xt正常值,xt代表什么疾病(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.