答题思路
定义 分类 步骤
参考答案
(定义)聚类分析是一种分类技术,它是依据研究者的理论或对变量的实际相关情况将变量分类(组),把性质相近的个体归为同一类,类别间有高异质性,保证每一研究个体落入一个类别且只落入这一类别,然后测量这一分类方式是否有效。
(分类)聚类分析旨在发现紧密相关的观测值组群,可以在没有标签的情况下把所有数据分为合适的几类来进行分析或者降维。聚类分析适合于各种测量层次的变量。根据聚类的准则,聚类分析可分为两类:
(1)距离法。通过变量间的距离度量变量的相似性,距离越短,相似性越好,越可合并为一类。在距离法中,变量被看作多维空间的一个点;(2)相关系数法。相关系数法是通过变量间的相关系数来度量聚类中变量的相似性的,相关系数越大,相似性越佳,越可合并为一类。
(步骤)聚类分析的步骤主要有:确定研究问题;相似性测度和标准化数据;评估聚类方法;解释聚类结果;检验聚类效果;偏好图展示。