在『一、Excel数据分析——数据输入』一文中,我们已经总结了四大数据输入方法,分别为录入、导入、识别、抓取,并且把数据输入后容易出现的问题如分列格式错误等问题也做了解答。那么到这步为止,我们就可以进入数据处理环节了。常规的Excel/Excel数据分析的教程或书籍,会有非常多琐碎的操作,我们依然是从数据分析的角度来说常用的操作及比较好的习惯。
这里分四点来讲:
1、数据清理,这一步是分析必备的,作用是在开始分析之前,把数据源调整到适合分析的状态。内容比较多,建议按照如下顺序操作:
- (按需)二维表转换为一维表、垂直数据改为水平、合并单元格拆分和填充、调整列顺序,调整列宽度
- 删除空白符、修正和调整数字格式、转换单位、识别与删除重复行
2、查找替换:高级应用——通配符
3、计算字段,主要是根据分析需要,通过Vlookup及其他常用函数,补充新列,辅助分析
4、排序筛选:按字体颜色或按单元格颜色排序和筛选、自定义序列、条件定位
数据清理数据清理检查表
- 行列是否正确排布,行列是否以正确顺序或逻辑排布
- 列数是否符合预期,列名是否唯一,列宽度是否合适,是否有空列或空值较高的列,列公式引用是否正确且同列公式一致
- 列格式是否恰当,是否格式一致
- 行数是否符合预期,是否有空行,是否有重复
- 单元格数据是否包含多余字符
使用Excel的“逆向透视表”功能
字面意思,就是把向透视表那样的二维表逆向转变为一维表。
垂直数据改为水平有时候从网站上复制数据到Excel中,原本X行Y列的表格到Excel中却变成了一列。还原为最初的二维结构,使用以下方法即可,核心是OFFSET函数。
示例原表格是7行3列,那么在还原时先创建一个3列7行的数字标头,列数字标头即1到Y,行数据标头公式为1,1 Y,直到1 (X-1)*Y,在行1列1的单元格输入=OFFSET($E$2,$G3 H$2-2,0)即可。注意公式当中的相对及绝对引用。
合并单元格拆分和填充很多时候复制数据粘贴到Excel中,会存在合并单元格的情况,我们知道,有合并单元格的数据表格非常不利于开展数据分析,需要拆分并填充成一个完整行列的数据表格。
- 粘贴时选择“值和数据格式”
- Ctrl G定位空格单元格
- 在第一个选中单元格公式中输入按键"="和"↑",即引用上一个单元格的值
- 按Ctrl Enter输入同公式
- 全部复制并粘贴值,去掉公式,以免排序后发生错乱
删除多余空格,TRIM可以删除开头和结尾的空格,以及用一个空格替换连续多个空格
删除奇怪字符,CLEAN可从字符串中删除所有无法打印的字符。在导入某些特定类型的数据时,常常会出现这些“垃圾”字符。
char(160)是html中的非断开空格 
将删除7位ASCII码的前32个非打印字符
替换文本
SUBSTITUTE:替换字符串中的特定文本(第一个)。当知道需要替换的字符但不知道其具体位置时,可使用此函数。
REPLACE:替换字符串中特定位置的文本。当知道所要替换的文本的位置但不知道实际文本时,可使用此函数。
替换文本可以为空,为空时即等同于替换删除。
修正和调整数字格式主要是常用的数字(含日期)和文本格式的相互转换。
填充文本数字至相同位数
当数字是文本时,会出现“9”要大于“10”的情况。把“9”变成“09”即可。使用文本函数text(A1,"00")