k - means聚类的优化函数
为了最小化,我们遵循以下算法:
1.随机选取K个种子点。这些用作观测的初始聚类分配。
2.迭代直到聚类分配停止更改:
- 对于K个聚类中的每一个,计算聚类质心。第k个聚类质心是第k个聚类中的观测的p个特征均值的向量
- 将每个观测值分配给质心最接近的聚类(欧几里德距离最短)
请注意,上述算法将找到局部最小值。因此,获得的结果将取决于初始随机聚类分配。因此,多次运行算法很重要。
层次聚类k-means聚类的潜在缺点是它需要人工输入来指定聚类的数量。层次聚类不需要初始数量的聚类。
最常见的层次聚类类型是自下而上的。这指的是树形图是从叶子开始生成的,并将聚类组合到树干上。
树形图的例子
该算法实际上非常简单。它首先定义每对观测值之间的不同度量值开始,如欧氏距离。然后,它首先假设每个观测都属于它自己的聚类。然后,融合两个最相似的聚类,所以有n-1个聚类。然后,融合其他两个相似的聚类,产生n-2个聚类。迭代地重复该过程,直到所有观测结果都是单个聚类的一部分。
虽然简单,但有些问题没有得到解决。如何定义聚类之间的不相似性度量呢?最常见的四种连接方式如下表所示:
最常见的四种连接方式
Complete,Average和Centroid是最常用的连接类型,因为single 接倾向于产生不平衡的树状图。请注意,得到的树状图很大程度上取决于所用连接的类型。
连接对最终树状图的影响
此外,选择合适的不同度量也很关键。如果两个特征高度相关,则认为两个特征是相似的。