这周更新额笔记比较偏应用。当我们进行ML(Mechine Learning)算法时:
首先,我们会拿到一个数据集,然后我们讲数据集分为两块(或者三块),分别为训练集、(检验集、)测试集。
在机器学习中,我们需要给这个模型设置一个预设值,也就是超参数(hyberparameter),计算机会根据超参数,利用训练集训练模型。
训练好的模型将会在测试集中测试,模型不准确就重新训练,直到测试符合后,才能被拿去做预测。
注意,不能将测试机集纳入训练集中训练模型。
这个学习过程可以分为有监督学习和无监督学习,其区别简单来说,就是我们事先知不知道这个数据集的label,也就是标签,需不需要自己找标签。
有监督学习对应回归问题,根据已有标签进行递归;无监督学习对应聚类问题。
一个模型要如何判断它是好是坏呢?
通过一些方法可以进行检验,例如,交叉检验的方法、还有k折验证。
混淆矩阵我们通过混淆矩阵可以得到许多数值,不同情况下,使用不同数值进行检验。