数据分析工作,并不是直接从分析开始的,当拿到一份要分析的数据,往往需要先进行一项基础工作-数据处理。数据处理一般的操作方法,正如SPSSAU【数据处理】板块中所提供的这些处理方法。
并且上图的【生成变量】方法中包涵了多种对数据变量重新处理的方法:
其中数据的标准化处理,是在进行很多数据分析之前都需要做的:
在一些分析比如主成分分析、因子分析、线性回归分析等均希望数据标准化处理。
同时一些综合性评价方法还会要求更多的数据处理,比如等,中心化是指:X-平均值。
还有一些经管类的方法:比如中介作用、调节作用等均要求标准化。
如果不进行标准化处理,后面的分析结果可能会存在误差。
数据的标准化处理主要是为了消除指标之间的量纲和取值范围差异的影响。什么是消除指标的量纲?一般情况下,我们所收集的数据是有单位的,比如收集到一份个人信息,其中包括人的身高和体重两个指标,身高有单位cm,体重有单位kg,消除指标的量纲就是消除它们的单位,当不同指标的量级差别很大时,消除量纲是有必要的,否则,数据的分析结果可能由量级较大的指标值决定,而忽略了量级小的指标,所以消除量纲,使之全部变成没有单位的数据,便于之后的分析。
例如下面的案例,需要对我国各省市的综合发展情况做因子分析,表中有六个指标。