1、原理介绍
LR(逻辑斯蒂回归)算法的本质是一个线性回归函数,该算法主要用作二分类的场景,例如点击率预估,算法公式如下:
其中x是模型的输入
- xi表示每个维度的输入。
- w是表示模型输入x的系数向量,w=( w1, w2, …), wi表示维度xi的权重。
2、模型求解
我们通过梯度下降法求解我们的模型。以点击率预估为例,首先收集样本。变量定义如下:
- nums 表示收集样本的数量 。
- (Xi,yi)表示用户第 个样本的数据,Xi表示样本的特征,yi表示点击情况(0表示没有点击,1表示点击)。
- Yi 表示模型的预测值,是关于w,b的变量。
定义交叉熵损失函数:
通过梯度下降法求解los(w,b)最小时对应的w,b即为所求模型参数。
3、业务实践
LR算法在目前推荐系统业界中,流行的做法是大规模离散化特征(one-hot编码),然后带入LR模型,以广告点击率模型为例,步骤如下:
- Step1:构造用户画像
按照特征类别构造用户画像,对类别下面的所有特征进行离散化处理,例如:用户历史浏览物品记录,用户社会属性,通过模型给用户打的标签等等。