信息增益可以衡量信息量,即获得多少「比特」信息。在决策树的情况下,我们可以计算数据集中每列的信息增益,以便找到哪列将为我们提供最大的信息增益,然后在该列上进行分裂。
所需数学知识:想初步理解决策树只需基本的代数和概率知识。如果你想要对概率和对数进行深入的概念性理解,我推荐你学习概率论和代数课程。
最后的思考
如果你还在上学,我强烈建议你选修一些纯数学和应用数学课程。它们有时肯定会让人感到畏惧,但是令人欣慰的是,当你遇到这些算法并知道如何最好地利用它们时,你会更有能力。如果你目前没有在上学,我建议你去最近的书店,阅读本文中提到的相关书籍。如果你能找到涉及概率论、统计学和线性代数的书籍,我强烈建议你选择涵盖这些主题的书籍,以真正了解本文涉及到的和那些未涉及到的机器学习算法背后的原理。
原文链接:https://www.dataquest.io/blog/math-in-data-science/