数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,补足缺失值、去除异常值,纠正错误。
一.去重
不管是外部回溯数据还是在自己数据库中拉取的数据,可能由于存储逻辑等问题,会出现很多重复数据,重复数据属于冗余数据,拿到数据所要做的第一步就是检查是否有重复数据,若有,则需要进行去重处理,在python中可以使用duplicates()函数。
二.处理异常值
数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,补足缺失值、去除异常值,纠正错误。
一.去重
不管是外部回溯数据还是在自己数据库中拉取的数据,可能由于存储逻辑等问题,会出现很多重复数据,重复数据属于冗余数据,拿到数据所要做的第一步就是检查是否有重复数据,若有,则需要进行去重处理,在python中可以使用duplicates()函数。
二.处理异常值
Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.