聚类分析方法有哪些（聚类分析法的优缺点是什么） - 原点资讯

聚类分析方法有哪些,聚类分析法的优缺点是什么(1)

聚类（Clustering）就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组，而这些相似组被称作簇。处于相同簇中的数据实例彼此相同，处于不同簇中的实例彼此不同。

聚类分析定义

聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。

聚类效果的好坏依赖于两个因素：1.衡量距离的方法（distance measurement） 2.聚类算法（algorithm）

聚类分析常见算法

K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。

K-均值算法对孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。

也称为层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会非常慢。

案例

有20种12盎司啤酒成分和价格的数据，变量包括啤酒名称、热量、钠含量、酒精含量、价格。

聚类分析方法有哪些,聚类分析法的优缺点是什么(2)

问题一：选择那些变量进行聚类？——采用“R型聚类”

现在我们有4个变量用来对啤酒分类，是否有必要将4个变量都纳入作为分类变量呢？热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定，而且还有花费不少成本。

所以，有必要对4个变量进行降维处理，这里采用spss R型聚类（变量聚类），对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。

聚类分析方法有哪些,聚类分析法的优缺点是什么(3)

4个分类变量各自不同，这一次我们先用相似性来测度，度量标准选用pearson系数，聚类方法选最远元素，此时，涉及到相关，4个变量可不用标准化处理，将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1，说明两个变量可互相替代。

聚类分析方法有哪些,聚类分析法的优缺点是什么(4)

聚类分析方法有哪些,聚类分析法的优缺点是什么