聚类分析法满足的条件,聚类分析方法的数据满足什么要求

首页 > 教育 > 作者:YD1662024-05-18 01:23:54

文章来源:微 信 公 众 号【我看人看我】,公 号可获取SPSS案例数据

聚类分析是一种常用的多元统计分析方法,主要基于研究对象的特征,将他们分门别类,以让同类别的样本之间差异尽可能小,不同类别间的差异尽可能的大。

在前面的文章中,基于案例介绍了常用的聚类分析方法【系统聚类】和【K-均值聚类】的SPSS操作过程。(详见《》 )

但要想做好聚类分析,还需要注意以下几个问题。

01 不同聚类方法的适用范围

聚类分析方法有多种,使用不同的聚类分析方法,得到的结果会有所不同,但这些结果无法在统计理论上分出优劣,也不存在最优的聚类方法,只能针对具体的问题、数据特征,多采用几种方法进行尝试,再观察哪一个分类结果更符合实际、更合理。

聚类分析法满足的条件,聚类分析方法的数据满足什么要求(1)

一般会将不同的聚类方法结合使用,取长补短,比如系统聚类法和K-均值聚类法就经常结合在一起使用。首先,使用系统聚类法来确定分类数,筛查异常值;其次,去掉异常值后,对剩下的样本重新进行系统聚类,得到各类的聚类中心;最后,将由系统聚类得到的聚类中心作为K-均值聚类分析的初始分类中心,进行K-均值聚类,得出最终的聚类结果。

系统聚类和K-均值聚类只能针对单一类型的变量进行分析,即参与分析的变量,要么是分类变量,要么是连续变量。如果数据中既存在分类变量也存在连续变量,可使用二阶聚类方法,这种方法可以同时对分类变量和连续变量进行分析。

02 聚类指标不是越多越好

聚类分析的依据是比较分类对象的特征的差异性,而特征则以量化的指标来表达。因此,做好聚类分析的关键前提,是要选对能很好地代表、衡量分类对象的指标。

并不是加入的聚类指标越多,聚类结果就越客观。有时候,加入一两个不合适的变量指标会导致聚类结果的大相径庭。因此,在聚类分析前,需要根据研究目的、研究经验和理论基础,严格选择能反映分类对象差异的变量指标。

比如,希望依照学校的科研情况对高校进行分类,那就可以选择参加科研人数、科研经费、立项课题数等变量指标作为聚类指标,而不应该选择如在校人数、校园面积、年用水量等和研究主题无关的指标。

得到聚类结果后,并不意味着分析就结束了,而是要对聚类结果不断检验,剔除在不同类别之间没有显著差异的、不合适的变量指标,以使聚类分析得到最优结果。

03 数据的标准化处理

聚类分析主要是基于分类对象之间的距离进行分类,容易受到聚类变量的测量单位的影响。数量级越大的变量,对距离计算结果的影响就越大,在聚类过程中也就会占据主导地位,从而掩盖了其他数量级小的变量,导致聚类结果的偏差。例如:

假设A、B、C三个个案在受教育年限、年收入两个变量上的值如下表1。年收入有“万元”和“元”两种单位。

聚类分析法满足的条件,聚类分析方法的数据满足什么要求(2)

下表2给出了基于受教育年限和年收入的两种单位,使用简单欧式距离方法进行相似性测度的结果,距离越小的个案,说明相似程度越高,越可能聚为一类。当单位为“万元”时,A-C之间的距离最小,说明两者的相似性最高,其次为A-B、B-C;再结合三个个案的受教育年限分布,可以发现个案之间的相似性,与他们受教育年限的差异存在很大关联,受教育年限差异最小的A-C,相似性最高,受教育年限差异最大的B-C,相似性最小。也就是说,当以单位“万元”计算距离时,在受教育年限变量在聚类中起到了主导作用。

聚类分析法满足的条件,聚类分析方法的数据满足什么要求(3)

而若以单位“元”进行测量,那A-C之间的相似性就变为了最低的,A-B、B-C的相似性相同,这意味着年收入在聚类中起主导作用。

从这个栗子中可以看到,测量单位的差异,会产生差异甚大的聚类结果。因此,在聚类分析前,需要对数据进行处理,将原始数据转化为无量纲的数据,让变量或者个案在同一标准下进行比较。在SPSS中,系统聚类分析提供了自动对数据进行标准化的方法,比如z分处理、将数据转换为范围在0~1之间的数据等。

聚类分析法满足的条件,聚类分析方法的数据满足什么要求(4)

而对于其他聚类方法,则需要预先手动对数据进行标准化处理,在SPSS中的实现路径为:【分析】-【描述统计】-【描述】-【将标准化值另存为变量】。

聚类分析法满足的条件,聚类分析方法的数据满足什么要求(5)

但数据标准化也会存在问题,因为标准化后会使所有变量或者个案对聚类结果的贡献都趋同,这显然并不符合实际情况的,其结果是使得聚类效果变差。因此,在进行数据标准化时,需要综合考虑此种分析场景是否有必要对数据做标准化处理。

04 聚类指标间不能存在高度相关

聚类分析是以基于距离来度量个案间或变量间的亲疏程度。如果所选的聚类变量指标之间存在较高的相关关系,能够相互替代,那么计算距离时同类变量将会重复起作用,相当于给这些相似变量进行了加权,从而导致聚类结果偏向该变量。

比如,如果所选择的聚类变量中有3个高度相关的变量,就相当于在聚类过程中,选择了三个变量中的一个进行距离计算,并给予该变量3倍的权重,从而得到不合理的聚类结果。

所以,进行聚类分析前,我们需要检验聚类指标之间是否存在较高的相关关系。这里可通过相关性分析来计算聚类指标之间的相关系数,从而确定是否存在共线性问题。

如果聚类指标存在高度相关性,可通过以下两种方法解决:

(1)在聚类分析前,先对存在高度相关的变量进行聚类分析,然后再从聚类结果中分别挑选出一个有代表性的变量作为最终的聚类指标。

(2)对聚类变量进行主成分分析或者因子分析,用以降低数据的维数,产生不相关的变量,再基于这些变量进行聚类。

文章来源: 公 众 号【我看人看我】,主要分享统计分析、SPSS教程、社会科学研究与方法等。

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.