Excel作为数据分析最常用的工具之一,在实际的操作中也有很多的技巧。
顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。哪些数据被称为脏数据?例如,需要从数据仓库中提取一些数据,但由于数据仓库通常是针对某一主题的数据集合,这些数据是从多个业务系统中提取的,因此不可避免地包含不完整的数据。错误的数据非常重复,这些数据被称为脏数据。我们需要借助工具,按照一定的规则清理这些脏数据,以确保后续分析结果的准确性。这个过程是数据清洗。
一、Left、Right、Mid、FIND
函数:Left、Right、Mid、Find。
目的:按照指定的要求提取指定的值。
方法:
在指定的目标单元格中依次输入:=LEFT(C3,6)、=MID(C3,7,8)、=RIGHT(C3,4)。
解读:
除了用Left、Mid和Right提取固定位置的值之外,还可以借助Find函数提取不固定位置的值。
目的:分别提取混合内容“姓名&工号”中的“姓名”和“工号”。
方法:
在目标单元格中输入公式:=LEFT(B3,FIND("-",B3)-1)、=MID(B3,FIND("-",B3) 1,100)。
解读:
1、公式中的-1和 1是修正值,在实际的应用中要灵活对待。
2、公式:=MID(B3,FIND("-",B3) 1,100)中的第3个参数“100”是自定义值,只要明显的大于要提取字段的长度即可。
二、数据清洗:清除类
去除前导空格
在Excel中输入如下表格: