对于离群点
- 当作缺失值进行处理
- 删掉离群点所在的样本
- 实用统计值进行填充
对于缺失值
- 可以用均值或均位数进行填充
- 可以用特定值,如-1
- 可以用np.nan表示
对于类别特征
- 编码方式:自然数编码、独热编码、count编码、目标编码
- 统计方式:count、nunique(宽度)、ratio(偏好)
对于数值特征
- 交叉统计:行交叉(均值、中位数、最大值、最小值)、业务交叉构造
- 离散方式:分桶、二值化(0/1)
LR的基本表达形式如下:
得到损失函数如下:
问题3:LR与SVM的区别七月在线新课上线【文本推荐系统项目实战】,基于Docker的真实场景下的文本推荐
限时福利 0.01元拼团秒*,速抢>>
http://www.julyedu.com/course/getDetail/471
1、LR是参数模型,SVM是非参数模型。
2、从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。
3、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
4、SVM不直接依赖数据分布,而LR则依赖,因为SVM只与支持向量那几个点有关系,而LR和所有点都有关系。
5、SVM本身是结构风险最小化模型,而LR是经验风险最小化模型
关于两个模型的适用情况
1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM
2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM Gaussian Kernel
3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况
问题4:SVM核函数的作用SVM核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)。
SVM中核函数:线性核、多项式核、高斯核、Sigmoid核等。
问题5:降低方差,偏差的方法七月在线新课上线【文本推荐系统项目实战】,基于Docker的真实场景下的文本推荐
限时福利 0.01元拼团秒*,速抢>>
http://www.julyedu.com/course/getDetail/471
偏差:描述的是预测值的期望与真实值之间的差距。偏差越大,越偏离真实数据。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
降低方差
- 增加训练数据
- 正则化(L1、L2、Dropout)
- 减少特征数量
- 减少模型复杂度
降低偏差
- 增加模型复杂度
- 减小或消除正则化(L1、L2、Dropout)
LR是广义线性模型;
XGBooost和LightGBM都是树模型;
LightGBM对于Xgboost的改进如下:
模型精度:XGBoost和LightGBM相当。
训练速度:LightGBM远快于XGBoost。(快百倍以上,跟数据集有关系)
内存消耗:LightGBM远小于XGBoost。(大约是xgb的五分之一)
缺失值特征:XGBoost和LightGBM都可以自动处理特征缺失值。
分类特征:XGBoost不支持类别特征,需要OneHot编码预处理。LightGBM直接支持类别特征。
LightGBM在XGBoost上主要有3方面的优化。
1,Histogram算法:直方图算法。
2,GOSS算法:基于梯度的单边采样算法。
3,EFB算法:互斥特征捆绑算法。
问题7:随机森林和GBDT的区别随机森林采用的bagging思想,而GBDT采用的boosting思想。
这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。
虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。
Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。
组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。
组成随机森林的树可以并行生成;而GBDT只能是串行生成。对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。
随机森林对异常值不敏感;GBDT对异常值非常敏感。
随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。随机森林是通过减少模型方差提高性能;GBDT是通过减少模型偏差提高性能。
进大厂是大部分程序员的梦想,而进大厂的门槛也是比较高的。刷题,也成为面试前的必备环节。
七妹给大家准备了“武功秘籍”,七月在线干货组继19年出的两本书《名企AI面试100题》和《名企AI面试100篇》后,又整理出《机器学习十大算法系列》、《2021年最新大厂AI面试题 Q3版》两本图书,不少同学通过学习拿到拿到dream offer。
为了让更多AI人受益,七仔现把电子版免费送给大家,希望对你的求职有所帮助。如果点赞和点在看的人数较多,我会后续整理资料并分享答案给大家。
以下4本书,电子版,添加VX:julyedufu77(或七月在线任一老师)回复“088” 领取!