从图像可以看出收敛的也并没有很好,但由于指数下降具有长尾性质,预期收入归零的时间变成了53天左右。
当然,从图像拟合的结果来看,当前的数据本身就是波动比较大,因此更应该做的是通过一些平滑操作,这部分会在下一章自回归里面介绍。
变量间关联分析
接下来我们关注另一个问题,阅读量和广告收入之间的关系。
在前面的分析中,我们发现,当天的广告收入和下一天的阅读量之间有稍高的线性关系,因此可以将广告收入作为y,下一天的阅读量作为x,来进行回归分析。我们可以把散点图画出来,并且把拟合后的直线也画在图形上。如下图所示:
从拟合的结果来看,当阅读量数据达到50时,才开始有广告收入,每200的阅读量大约对应1元的收入。
当然,这里跟前面一样,遭遇到数据噪声比较大的问题。数据在拟合的曲线附近波动比较严重。拟合结果的R方在0.2~0.3左右,R方表示的是拟合出来结果跟真实结果的差异,这里差异还是比较大。
从更长时间尺度来看,数据还是比较发散的,并且我们的拟合结果由于没有高阅读量的数据,导致结果偏高。意思是按照拟合结果,200的阅读量大约能有1元的广告收入,实际上300和500的阅读量,广告收益也可能在1元左右。因而有比较多的紫色点是落在拟合线下方的,如果我们用更多的数据来拟合,会得到一个斜率更低的曲线,更为准确。
为了解决这一波动问题,我们使用更多数据,并对数据取平均操作。
在前面的回归分析中,使用的x是后一天的阅读量,y是当天广告收益。通过求和操作,我们把x变换成当周的日均阅读量,y变成当周的日均广告收入,这样一周以内的随机波动都能被平滑掉,得到下面的拟合结果: