文章和案例数据来源:微信公众号【我看人看我】
一、聚类分析是什么所谓物以类聚、人以群分,聚类分析,即是基于研究对象的特征,将他们分门别类,以让同类别的个体之间差异相对小、相似度相对大,不同类别之间的个体差异大、相似度小。聚类分析是一种探索性分析方法,与判别分析不同,聚类分析事先并不知道分类的标准,甚至不知道应该分成几类,而是会根据样本数据的特征,自动进行分类。
二、聚类分析的应用场景1. 市场细分、用户细分
基于用户行为、渠道、商品等方面对原始数据进行聚类,以对市场、用户进行细分。
2. 类型划分
比如根据经济发展的相关指标,通过聚类分析将不同地区进行分类,再进一步研究经济发展与诸如教育投入、城乡居民收入等因素的关系。
3. 对数据预处理
当总体不清楚的情况下,先基于个案对原始数据进行聚类,再进行回归分析;或者基于变量对原始数据进行聚类,将众多变量分为少数几个变量,再进行回归分析,可减少进入回归方程的变量数,降低分析难度。
三、聚类分析的类型1. Q型聚类
对个案进行聚类,将具有共同特征的个案归为一类,以便对不同类型的个案进行分析,比如市场、用户的细分,应用的即是Q型聚类。
2. R型聚类
对变量进行聚类,将具有共同特征的变量归为一类,以便从众多变量中挑选出具有代表性的变量进行进一步分析,比如量表的维度太多,可通过Q型聚类,减少后续分析的变量数。
四、常用的聚类分析方法聚类分析方法有多种,使用不同的聚类分析方法,得到的结果会有所不同,但这些结果无法在统计理论上分出优劣,只能针对具体的问题、数据特征,多采用几种方法进行尝试,再观察哪一个分类结果更符合实际、更合理。
(一)系统聚类法
1. 方法介绍
系统聚类分析法又称为凝聚型谱系聚类法(Hierarchical Cluster),是应用最广的聚类分析方法。它的基本逻辑是:先把每个个案(或变量)看作一类,然后根据个案(或变量)之间的距离或相似性归为小类,再继续根据类别之间的距离或者相似性逐步向上归类,直到所有个案都聚合成一大类为止。系统聚类分析方法适合样本容量不大的数据,一般以小于200个为宜。
该聚类分析法的具体步骤如下流程:
(1)将n个个案(或变量)归为n类,一个个案(或变量)单独为一类
(2)计算所有类与类之间的距离
(3)合并距离最近的两类为新的一类
(4)计算新的一类与当前各类的距离
(5)再次合并距离最近的两类为新的一类
(6)如此重复,直到所有个案(或变量)全都归为一大类
(7)根据最终的聚类图,决定个案的分类数和类别
2. 如何确定分类数
在系统聚类分析过程中,分类数的选择自由比较大,既可指定具体分类个数,也可以指定分类数的范围,或者根据结果输出树状图来选择分类数。
3. 不足
(1)系统聚类是从每个个案开始进行分类的,所以当样本容量很大时,计算的工作量也会非常大,因此系统聚类只适合样本不太大的数据。如果样本数大于200个,宜采用快速聚类分析方法,因为样本越大,层次聚类分析的判别图形就会越分散,不易解释。
(2)系统聚类分析时,每个个案一旦归为某一类就不允许再改变,但最初的分类可能不是最优的选择。
(二)K-均值聚类法
1. 方法介绍
也称为快速聚类(K-Means Cluster),是在聚类的类别数已确定的情况下,快速将其他个案归类到相应的类别,适合大样本数据的聚类。它的基本逻辑是:根据对样本已有信息的了解,先将数据粗略地分为若干类,然后根据一定的原则(最小距离原则、或者相似性原则),修正调整初始的分类,并不断迭代调整,直到分类合理为止。
该聚类方法的具体步骤如下:
(1)选择若干个聚类中心,依据与聚类中心的距离分出初始分类
(2)判断初始分类是否合理
(3)如果合理,则完成分类
(4)如果不合理,再根据一定的原则,修改调整分类
2. 如何确定分类数
快速聚类的分类数需要提前确定固定的值,而且分类数确定后就不能更改了。因此,快速聚类的分类数的确定需要根据行业特点、对研究对象的预先了解、对研究事物的判断,来确定预期的分类数。
在实际研究中,为了更合理地确定分类数,我们还可以先对部分代表性样本进行系统聚类分析,从而辅助我们决定应该分为几类。
3. 不足
(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。
(2)仅限于个案间的聚类(Q型聚类),不能对变量进行聚类;
(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。
(三)二阶聚类法
1. 方法介绍
也称为两步聚类(TwoStep),其基本逻辑是:以个案或变量间的距离为依据形成相应的聚类特征树结点来构造聚类特征树,再通过信息准则确定最优分组个数对各个结点进行分组。
二阶聚类分析方法的步骤如下:
(1)预聚类
根据定义的最大类别数对个案进行初步分类
(2)正式聚类
对预聚类得到的初步分类再进行聚类并最终确定聚类结果
(3)确定分类数
在正式聚类的过程中,系统会根据一定的统计标准自动确定聚类的最优类别数
2. 如何确定分类数
二阶聚类方法不同于前面的两种分析方法,它不需要研究人员预先指定具体的分类数或者范围,而是在分析过程中,系统会根据一定的统计标准自动地选择最优的分类个数。显然,相比于其他聚类方法,二阶聚类的分类结果会更加智能,也能够较大程度地减少人为主观因素的干扰。
3. 优势
(1)能够同时处理分类变量和连续变量
(2)可自动选择最优的分类个数
(3)适用于大样本数据
五、聚类分析的常规步骤1. 选择聚类指标
根据研究目的,在聚类分析前,确定以哪些变量指标为依据进行聚类。选择的聚类指标一定要能够反映和覆盖聚类的特征,如果聚类指标不全或者代表性差,将直接影响结果。
选择聚类指标的原则和方法如下:
(1)原则
A. 变量对所研究的问题有密切关系
B. 变量具有较强的分辨能力
(2)方法
A. 根据经验:根据研究问题的特征,结合实际工作经验,挑选对聚类效果影响显著的变量;
B. 主成分分析:对所有变量的数据进行主成分分析,根据方差贡献率(>=85%),选择主要成分的个数,把起主要成分作用的变量选出;
C. 因子分析:利用因子模型剔除剩余变量。
2. 对数据进行标准化处理
通过标准化处理,消除变量间的量纲关系的影响,让不同变量能够在同一个标准下进行比较。
3. 选择聚类方法
根据不同的聚类对象(个案还是变量)选择相应的聚类方法进行聚类。
4. 确定分类个数
5. 解读分析结果
六、聚类分析的注意事项1. 选择的聚类指标能代表研究对象
聚类分析的基础依据是比较研究主题的特征/性质的差异性,而特征/性质则以数量化的指标来表达。因此,做好聚类分析的关键前提,是要选对能很好地代表、衡量研究主题特征的指标。
比如,希望依照学校的科研情况对高校进行分类,那就可以选择参加科研人数、科研经费、立项课题数等变量指标作为聚类指标,而不应该选择如在校人数、校园面积、年用水量等和研究主题无关的指标。
2. 对数据进行标准化处理
由于聚类分析主要是基于个案或变量之间的距离或者相似性,要保证可比性,就要求数据无量纲差异(如数量级、单位上的差异),能够在同一标准下进行比较。因此,在聚类分析前,需要对数据进行处理,将原始数据转化为无量纲的数据。常用的转化方法有:
(1)转化为同标准的标准分:标准化处理是最常用的方法之一
(2)用变量值除以全距(最大值减去最小值)
(3)变量值减去最小值再除以全距
(4)变量值除以最大值
3. 聚类指标之间不应有较强的线性相关关系
聚类分析是以各种距离来度量个案间或变量间的亲疏程度。如果所选的聚类变量指标之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将会重复起作用,将在距离中有较高的权重,从而导致聚类结果偏向该变量。
【#关于作者#】
中山大学人类学硕士,用户研究工程师、数据分析师,微信公众号【我看人看我】,主要分享SPSS统计分析、用户研究理论与方法、社会科学研究与方法等。