在这里,我们使用简单移动平均作为一种数据预处理的方法,来降低原始数据的波动性。考虑到数据可能有星期特性,因此我们选取七天为移动平均的窗口,图中红色线为移动平均之后的结果,从图中可以看出数据整体变得更平稳了,此时我们如果使用第七天到最后一天的数据进行线性回归,可以得到黑色曲线,相比于之前拟合出的红色曲线,变得更为平缓。通过旧数据拟合出来的广告收入归零点大约是两个月,经过平滑之后得到的结果大约是三个月。当然,这一个单独的数据说明不了哪一种操作更好,但简单移动平均之后的数据,看起来更符合常理一些了。
另外,我们可以观察移动平均前后的相关性,看是否平滑之后数据变得关联性更强了
平滑前
相关系数 | 总阅读数 | 阅读人数 | 净增粉丝数 | 广告收入 |
总阅读数 | 1 | 0.7979 | 0.263 | -0.0566 |
阅读人数 | 0.7979 | 1 | 0.1229 | 0.0228 |
净增粉丝数 | 0.263 | 0.1229 | 1 | 0.0399 |
广告收入 | -0.0566 | 0.0228 | 0.0399 | 1 |
简单移动平均平滑后
相关系数 | 总阅读数 | 阅读人数 | 净增粉丝数 | 广告收入 |
总阅读数 | 1 | 0.5858 | 0.4042 | 0.1119 |
阅读人数 | 0.5858 | 1 | -0.3118 | 0.4608 |
净增粉丝数 | 0.4042 | -0.3118 | 1 | -0.2778 |
广告收入 | 0.1119 | 0.4608 | -0.2778 | 1 |
可以从图中看出,平滑之后,阅读人数和广告收入之间的相关性明显得到了提升。另外还发现了一个现象,净增粉丝数和阅读人数与广告收入均呈现负相关的形式。
这一负相关在前文回归分析中也有提到,新增粉丝数与广告收入的负相关对广告收入引入一天的时延之后就变为正相关了。
但是奇怪的是,阅读人数与净增粉丝数始终呈现负相关的局面,不过这不是当前移动平均分析方法的重点,后续有更多运营数据时可以再具体来看。
指数移动平均
对于简单移动平均,在时间窗中的每一个数在平均的时候都是用相同的权重,这样的平滑过程比较容易受到之前数据的干扰。很多时候我们面对快速变化且噪声较大的数据时,更倾向于使用指数移动平均,在去除噪声的同时保留当前数据快速变化的特性。指数移动平均对于被平均的数据权重与简单移动平均是不一样的,越靠近当前时刻的值权重越大,随着数据远离当前时刻,其权重呈现指数下降的形式,这样可以使得平滑的过程在更接近当前值和更平滑之间调整。利用平滑系数实现类似简单移动平均窗长的效果。
指数移动平均的实现公式如下:
大家看这个公式,和上面的简单移动平均有类似的形式,但细节上有差异,指数移动平均是无法通过调参完全等效于简单移动平均的。这里的\alpha与简单移动平均的窗长k有类似的关系,我们可以通过调整\alpha的值来调整我们指数移动平均覆盖的数据范围。\alpha越接近1,则指数平均的更新越快,对应的窗长越短。
前面有提到,指数移动平均对应的权重是从当前时刻开始指数下降,但是上面的迭代公式并没有明显的体现出这一特征,我们可以将迭代的公式展开