关注小聚,数据分析不迷路
在数据化运营过程中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处理。
数据预处理是其中的重要环节,它直接决定了后续数据工作的质量和价值输出。
人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。
数据预处理流程
首先我们知道,数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。
可以用这些逐步检测并优化提升数据质量,不是每次预处理都需要做这些所有步骤,视数据情况挑选若干即可。
由于在数据分析过程中主要涉及的是数据清洗,所以本文详细讲解这一部分,那么数据清洗有哪些铁则或者经验呢?小聚这里整理如下: