我们先从主成分分析PCA开始看。在解释这个方法之前,我们先快速回顾一下什么是特征的降维。在机器学习领域中,我们要进行大量的特征工程,将物品的特征转换成计算机所能处理的各种数据。通常,如果我们增加物品的特征,就有可能提升机器学习的效果。可是,随着特征数量不断增加,特征向量的维数也会不断升高。这不仅会加大机器学习的难度,还会形成过拟合,影响最终的准确度。针对这种情形,我们需要过滤掉一些不重要的特征,或者是将某些相关的特征合并起来,最终达到在降低特征维数的同时,尽量保留原始数据所包含的信息。了解了这些背景信息,我们再来看PCA方法。本节先从它的运算步骤入手讲清楚每一步,再解释其背后的核心思想。
14.1.1 PCA的主要步骤和协同过滤的案例一样,我们使用一个矩阵来表示数据集。我们假设数据集中有
个样本、
维特征,而这些特征都是数值型的,那么这个集合可以按照如表14-1所示的方式来展示。
表14-1 数据记录及其特征
样本ID | 特征1 | 特征2 | 特征3 | ... | 特征 | 特征 栏目热文
文档排行本站推荐
Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved. |