无监督学习是一组统计工具,用于只有一组特征而没有目标的情景。因此,我们无法进行预测,因为每个观察都没有相关的响应。我们感兴趣的是找到一种有趣的方法来可视化数据或发现类似观察的子组。
无监督学习往往更具挑战性,因为分析没有明确的目标,而且往往是主观的。此外,很难评估获得的结果是否良好,因为没有公认的机制来对独立机器学习数据集执行交叉验证或验证结果,因为我们不知道真正的答案。
本文将重点介绍两种技术:主成分分析和聚类。
主成分分析(PCA)PCA指的是计算主成分并用于更好地理解机器学习数据集中数据的过程。PCA也可用于可视化。
什么是主成分?
假设你希望用一组p特性(作为探索性数据分析的一部分)对n个观测值进行可视化。我们可以一次检查2个特征的2D散点图,但是如果有很多预测因子,就会很难可视化。
通过PCA,我们可以找到一个低维空间的数据集,它包含了尽可能多的变化。我们将获得最感兴趣的特征。
如何找到主要成分?
第一个主成分是具有最大方差的特征的归一化线性组合:
第一主成分方程
符号Φ称为loadings。loadings必须最大化:
聚类方法(Clustering methods)聚类是指用于在数据集中查找子组或clusters的一组广泛技术。这有助于我们将观察分成不同的组,以便每个组包含彼此相似的观察。例如,在乳腺癌的情景中,分组可以代表肿瘤级别。在市场细分的市场营销中,它也非常有用,因为它可以识别出更容易接受某种产品的人群。
有许多聚类方法,但我们将专注于k-means聚类和层次聚类。在k-means聚类中,我们希望将数据划分为预先指定的数量为K的聚类。另一方面,通过层次聚类,我们不知道需要多少个聚类,我们想要一个树状图,它允许我们查看每个可能数量的聚类获得的所有聚类。
k - means聚类
该方法简单地将观测数据分离为K个聚类。假设:
- 1.每个观测至少属于K个聚类中的一个
- 2.聚类不重叠
此外,每个聚类内的变化最小化。
如何根据指定聚类的数量对观察进行聚类
这是通过最小化聚类内每个观测值之间的欧几里德平方距离的总和来实现的: