原文:每日丁点 | 箱式图以及SPSS操作视频
10. 怎么判断数据是否有误
统计学是关于数据的科学,因此,准确地获取数据,保证数据质量也是非常重要的问题。下面,我们就来简单谈谈对于数据进行逻辑核查的几种常用策略以及离群值的判断和处理。
一、逻辑核查的7种策略
1. 检查变量存储类型
在软件中,变量分为数值型变量、字符型变量等(这里与统计学中对变量的分类相区别)。
一般而言,数值型变量只能包括数字、小数点等,而不能含有字母或文字。
这种有时看似十分低级的错误有时可能成为分析过程无法顺畅进行的绊脚石,所以,也需要要留意。
2. 核查变量值范围
检查每个变量的取值范围。例如:一个人的体重不能为负数;出生月份应在1~12之间;某成年男性的身高值低于140cm或者高于210cm也值得怀疑。
3. 有效值检查
检查观测值是否为事先定义的数值之一。例如:录入性别时,事先规定用1表示男性,2表示女性,如果数据中出现其他观测值则说明有误。
4. 一致性检查
检查有无前后矛盾,相关问题的逻辑是否一致。例如,出院日期早于入院日期、收缩压小于舒张压等就不符合逻辑。
5. 唯一性检查
在录入数据时,一般而言,每个观察单位通常都设有一个唯一的标识号,如调查对象编号、住院号、门诊号等。
根据标识号检查是否存在同一个观察单位的数据两次重复录入。
6. 完整性检查
检查每一个观察单位的完整性和整个数据库的完整性。比如,在问卷调查中,往往根据问卷的完成情况定义有效问卷,比如完成80%即视为有效问卷。
同时,需要注意每个变量在整个数据文件中的缺失比例,这是数据质量的一个重要方面。
7. 交叉检查
不同来源的两个数据库中同一内容的信息应该一致。通过检查不同来源的数据的一致性,可快速验证数据的可信度。
二、离群值的判断
前文,我们简单谈过离群值的概念。一组数据中如果个别数值与其他数值相比差异较大,远远偏离大多数数据的平均水平,这样的数据被称为离群值(outliers)。
对于离群值的探索有时候不能通过上述逻辑核查的方法,由此,需要采用相应的统计收到进行核查。
1. 通过频数分布表或直方图初步判断
如果连续几个组段的频数均0,之后出现特别大或者特别小的数据即可能为离群值。
2. 利用箱式图判断
如果观测值距箱式图底线(P25)或顶线(P75)的距离为箱体高度(IQR)1.5倍或以上,则可视为离群值。
其中,与箱体距离超过3倍箱体高度,则可视该观测值为极端离群值或极端值;与箱体距离在1~1.5倍箱体高度的观测值可称为可疑离群值;
3. 通过均数和标准差判断
当数据呈近似正态分布且样本量较大时(如n>50),若观测值在均数±3倍标准差之外则可视为离群值。
4. 结合其他变量信息判断
比如,根据儿童的身高,可初步判断其体重是否过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。
三、离群值的处理
离群值是否应该直接剔除或者进行调整是一个具有争议的问题,处理不当可导致分析结果出现偏差。
测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除。
当无明确理由剔除离群值时,可按如下方法处理:
1. 对离群值删除前后各做一次统计分析,若前后分析结果矛盾则下结论需谨慎。
2. 采取一些稳健分析(robust analysis)的方法:
如采用中位数、进行对数变换(需观测值大于0,但注意对数变化可能夸大极小值的影响);
截尾均数:将数据按从小到大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数,大家听过的“去掉一个最高分、去掉一个最低分”,就是典型的例子。
原文:每日丁点 | 怎么判断数据是否有误?
注:文章有参考,来源为《卫生统计学》(人卫第八版)
推荐阅读
《讲透统计》系列文章合集
丁点帮你公众号现推出“每日丁点 | 统计系列”,每天给你讲透一个统计小问题,让我们一起每天进步一丁点!