戳上方蓝字或下方卡片关注我,一起踏上进阶之路。
文字 | 百灵
图片 | 原创
欢迎分享,留言交流,转载请注明出处
本文共计约3700字,建议阅读时间3分钟目录
- 时间序列分析——引言
- 时间序列
- 时间序列发展历程
- 时间序列分析方法
- 应用及局限
- 时间序列分析——相关分析
- 描述分析
- 自相关
- 互相关和互相关系数
- 小结
- 统计分析方法——回归分析
- 回归分析方法
- 线性回归
- 非线性回归
- 提升数据鲁棒性
- 小结
- 时间序列分析——移动平均
- 简单移动平均
- 指数平均
- 小结
- 时间序列分析——自回归
时间序列分析——移动平均
在时间序列的统计分析中,自回归移动平均(ARMA)模型以两个多项式提供了对(弱)平稳随机过程的简洁描述,一个用于自回归(AR),另一个用于移动平均(MA)。ARMA模型最初由Peter Whittle在1951年的博士论文《时间序列分析中的假设检验》中描述,后来在George E. P. Box和Gwilym Jenkins于1970年出版的著作中得到普及。
在原始的ARMA中,使用给定的时间序列xt,来对未来的值进行预测。移动平均部分涉及将误差项建模为同时发生的和过去不同时间的误差项的线性组合。自回归部分涉及将变量回归到其自身过去的值上。
AR部分MA该模型通常被称为ARMA(p,q)模型,其中p是AR部分的阶数,q是MA部分的阶数(如下所定义)。
在ARMA模型中,以后很多参数需要被估计,通过Box-Jenkins方法可以估计ARMA模型。但这个太复杂了,我们先从移动平均和自回归这两个具体的操作来介绍它们是如何被使用的。
移动平均主要作用是平滑数据,将数据中的随机波动互相抵消,可以使得后续处理或者分析避免受到随机噪声的影响。
自回归的主要应用是通过过去的时间序列预测未来值,在ARMA中,结合起来使用移动平均来消除数据波动的影响,使用自回归来预测未来值。
移动平均
统计学中,移动平均(滚动平均或运行平均)是一种通过创建不同选择的完整数据集的平均数列来分析数据点的计算。它的变体包括:简单、累积或加权形式。
移动平均在时间序列的数据处理过程中主要是消除数据中的噪声,有一个简单的假设就是在时间序列数据生成的过程中,相临近的几个点之间都会有独立同分布的白噪声,把他们一相加即可相互抵消得到无噪声的数据。
移动平均通常与时间序列数据一起使用,以平滑短期波动并突出显示长期趋势或周期。短期和长期之间的阈值取决于应用场景,并相应地设置移动平均的参数。从数学上讲,移动平均是卷积的一种类型,因此可以看作是信号处理中使用的低通滤波器的一个例子,移动平均会过滤掉更高频率的组成部分,它可以被视为使数据平滑化,去除数据中噪声的影响。
在上文中我们也有提到当在回归分析中使用按周的日均数据,但直接这么平均的话,会导致数据量下降的比较多,比如如果只有一个月的数据,按周平均之后只剩四个点的数据了,用来做回归分析数据不够,这是如果使用自回归的方式进行数据预处理,可以在去除数据波动的同时,保留更多的数据。
简单移动平均
在金融应用中,简单移动平均(SMA)是前k个数据点的未加权平均值。然而,在科学和工程中,通常从中心值两侧的等量数据进行平均。这确保了平均值的变化与数据的变化相匹配,而不是随时间推移。一个简单的等权运行均值的例子是对包含n个条目的数据集的最后k个条目的平均值。让这些数据点为p1,p2,……,pn。这可以是股票的收盘价格。最后k个数据点的平均值(以天数为例)表示为SMAk,并计算如下:
当计算下一个平均值SMAk,next时,使用相同的采样宽度k考虑的范围从n-k 2到n 1。新值pn 1进入总和,最老的值pn-k 1退出。这通过重复使用先前的平均值SMAk,prev简化了计算。所选的窗长(k)取决于感兴趣的周期,例如7天,30天等等与现实中数据周期契合的值。
这里我们以上文中的收入数据为例,说明简单移动平均的用法。在上文介绍回归分析时,我们使用了收入数据随时间变化的曲线,但是在拟合过程中,由于数据波动,得到的拟合结果R方并不太高,看起来随机波动较大。
关于我们数据具体有哪些以及相关分析和回归分析方法,可以参考之前的文章:
回归分析方法及数据
永远向上的百灵,公众号:数据分析师修炼手册统计分析方法——回归分析
相关分析方法
永远向上的百灵,公众号:数据分析师修炼手册时间序列分析——相关分析