因此,对 n 和 (R/S)_n 进行双对数回归,即使用 log(n) 对 log((R/S)_n) 进行线性回归。回归方程的截距就是上面关系中的常数 C,而斜率就是 Hurst 指数 H。
Log((R/S)_n) 和 log(n) 之间的线性关系(斜率)就是 Hurst 指数 H。我们来看看这条跨越不同 log(n)——对应的是计算收益率的不同频率——的直线到底意味着什么。
在求解 Hurst 指数 H 的过程中,随着时间跨度 n 的增加,我们逐步考察更低频率的对数收益率的累积变化。原始价格数据的粒度决定了我们在分析中涉及的最高频率(因为 n 的取值最小为 1),而 Hurst 指数描述的是以这个最高频率为上界的全频率*范围内的收益率序列的相关性。
* 说全频率不太确切。大量国内外实证指出,当时间跨度 logn 太大之后,Hurst 指数 H 刻画的记忆性开始失效,即如果我们把 log((R/S)_n) 和 logn 画出散点图,那么当 logn 大于某个值,即频率小于某个值的时候,log((R/S)_n) 和 logn 的线性关系开始失效(比如下图来自使用 R/S 法分析上证指数从 2005 年起日收益率的 Hurst 指数,log((R/S)_n) 和 logn 的线性关系当 n 大于 244 个交易日——约 1 年——后失效)。因此,Hurst 指数刻画的是从分析的最高频率到线性关系失效对应的最低频率之间所有频率的相关性。在这段频率区间内,无论我们看哪个频率的收益率,其自相关性都由一个共同的 H 刻画。
来看几个例子。假设我们输入的数据为 5 日收益率(即采样频率是 5 个交易日),而 log(R/S) 和 logn 的散点图说明当 n = 250 个交易日线性关系时失效(相当于 1 年),这意味着我们考虑的频率范围是从 5 日收益率一直到 1 年的收益率。假设 H = 0.6,这意味着在这个频率范围内,无论我们考察 5 日收益率的自相关性,还是月收益率的自相关性,亦或是年收益率的自相关性,它们都由 H = 0.6 来刻画。
而当我们将输入数据的频率提高到 1 日收益率数据会怎么样呢?我们的分析范围由之前的 5 日到 1 年扩大到 1 日到 1 年。因此,在这种情况下计算出来的 H 数值则刻画这个更大频率范围内收益率的自相似性。显然,它涵盖了之前的 5 日到 1 年这个频率区间。那是否意味着这个新的 H 数值等于之前的 0.6 呢?答案是否定的。由于新的分析中用到了更高频的数据(1 个交易日),而更高的频率伴随着更多的随机扰动(所以高频收益率之间的相关性更低),因此这个描绘从 1 日到 1 年频域的新的 H 会比之前那个描绘从 5 日到 1 年频域的 H 的取值低一些。Peters (1994) 在美股上的大量实证完美的证实了这一点。
5 Hurst 指数和 FBM 对投资实践的意义通过前面的介绍,我们已经知道:
Hurst 指数刻画的是去除漂移项之后的对数收益率在全频率上的自相关系数。
在文章的开篇,我提出国内量化投资界过度夸大了这种自相关性在构建可盈利的投资策略时的作用。这主要体现在以下两个方面:
- 它从本质上错误的定义了“趋势”;
- 它过分夸大了 FBM 增量之间的正相关性在构建投资策略时的作用。
下面我就来分别阐述这两点。
首先来看“错误的定义了趋势”这点。在众多的描述股价的随机过程变种中,标准布朗运动和分数布朗运动都是假设该随机过程是没有长期漂移率项的,即投资品价格经过任意时间跨度 T 的变化之后,其期望价格仍然等于它的初始价格。这显然和现实不符。因此,更适合描述股价的布朗或分数布朗运动一定是含有代表长期趋势的漂移率项的。
美股的标普 500 指数或者道琼斯工业指数在百年历程中呈现稳健上行的慢牛行情(除几次严重股灾外),是因为它们的收益率有一个正的(虽然很小)的漂移率;我国 A 股在 2007 年和 2015 年的两波牛市盛宴中之所以能一路上行,是因为收益率有正的且相对于波动率来说很大的漂移率。收益率中的正漂移率才是趋势,才是能够被策略利用来赚钱的。
下图是利用时间序列中刻画短期自相关性的 ARMA 模型(来自《写给你的金融时间序列:应用篇》)分析上证指数收益率时,得到的漂移率随时间的变化。可见在 2015 年上半年大牛市的时候漂移率显著大于 0;在 2015 年下半年大熊市的时候,漂移率显著小于 0。在这个显著的漂移率面前,刻画自相关性的 ARMA 系数对收益率的影响微乎其微。虽然这是一个从短期自相关性角度考察的例子,但它的结论对于 Hurst 指数这种全频率的长期自相关性同样适用:在真正代表趋势的漂移率面前,无论短期还是长期的自相关性对于收益率的影响微乎其微。
再来看一个假想的例子。假设我们有一组对数收益率序列 {3%, 2%, 3%, 2%, 3%, 2%, 3%, 2%, 3%, 2% …}。从赚钱的角度来说,这个序列有明显的趋势(漂移率等于 2.5%),因此应该一直持有该投资品。但如果我们对该收益率序列去掉长期均值并计算其 Hurst 指数,得到的 Hurst 指数没有任何意义(因为这个例子中收益率序列呈周期性变化,因此 Hurst 指数覆盖的频域也是有周期性的,考虑不同频率,Hurst 指数时正时负)。如果我们不考虑漂移率,那么我们会根据 Hurst 指数认为当收益率序列在特定的频率下有负相关,从而放弃收益率为 2% 的那些时间段,这显然是错误的。
所以,真正能赚钱的行情是收益率序列中有正的漂移率项。而这压根就不是 Hurst 指数刻画的对象(它研究的是去漂移率项之后,收益率序列的自相关性)。券商报告中使用 Hurst 指数择时出 A 股的牛熊市(漂移率为正和漂移率为负的周期),实在是贻笑大方。
再来看看第二点,即“夸大了(去漂移率后)收益率之间正相关性的作用”。FBM 的增量之间有相关性,那么当使用 FBM 描述股票对数价格的时候,这里隐含的意思就是如果股票价格在前期涨了且 Hurst 指数大于 0.5,则股票价格在后期也会涨。这个通俗的理解虽然和 FBM 的性质不矛盾,但是细想起来,直接使用它构建策略就有问题了。
假设收益率没有漂移率,让我们就考虑它的自相关性。那么我们关心的是 FBM 过程的增量在已知过去历史的条件下的条件期望。如果条件期望为正,那么可以说收益率的期望为正(当然,对于实际的收益率取值,还受到随机扰动的影响)。但是,由于 Hurst 指数描绘的是全频率上的相似性,FBM 增量的条件期望在数学上极其复杂(Fink et.al. 2013)。这在投资中的体现是,一个投资品在上一个交易日的收益率可能是正的,而它在前一周的收益率却是负的。Hurst 指数说明不同频率的收益率在统计上满足同分布,且有相同的相关性。那么这一正一负的不同频率的收益率的实际取值对未来收益率的影响到底是多少呢?显然,我们不能看了日收益率为正就说下一个交易日的收益率为正;而看了周收益率为负就说下一周的收益率为负。这就是 Hurst 指数作为全频率上的性质在对未来进行推测时带来的复杂之处。所以,如果我们仅以 Hurst 指数大于 0.5 就说“之前涨了,之后还会涨”,这无疑错误解读了 Hurst 指数的本意。
以上就是对上面两个问题的论证。
那么,Hurst 指数刻画的长记忆性在投资中到底意味着什么呢?我认为它可以从三方面解读:
1. 波动率聚类
Mandelbrot (1963) 在研究投资品价格时观测到波动率聚类。它的意思是价格的大幅变化往往伴随着大幅变化(变化的符号都有可能),而价格的小幅变化往往伴随着小幅变化。从数学上刻画就意味着收益率的绝对值有很强的长记忆性,它的自相关性衰减的很慢。Taqqu (1975) 的研究也证明了 FBM 的增量(收益率)的绝对值的 Hurst 指数大于 0.5,即有长记忆性。Oh et. al. (2008) 研究了美国、德国、英国等八国主要股指收益率的绝对值并证实,这些时间序列的 Hurst 指数显著高于 0.5。下图为 2001 年到 2017 年上证指数日收益率的标准差,从中可以清晰的看到波动率聚类。
从风险控制的角度出发,使用 Hurst 指数研究收益率的绝对值(即波动率)的自相关性,比使用它来研究收益率的自相关性更具有实际意义。
2. 收益率的尖峰肥尾分布
投资品收益率并不满足正态分布,而是呈现出尖峰肥尾的特征。这是市场上的共识。在数学上,这种分布可以使用 Levy 分布描述,而描述该分部时用到两个重要的参数 α(描述尖峰肥尾性)和 β(描述偏度)。(注:这里虽然用到了符号 α 和 β,但它们和我们常说的 α 和 β 收益率无关。)
当一个随机变量的尾部分布满足幂律衰减时,即 prob(X>x) ~ O(x^-α) 且 α < 2,该随机变量的分布体现出肥尾。可以证明,α 和 Hurst 指数 H 有如下关系:α = 1/H。对于有长记忆性的收益率,因为其 H > 0.5,所以 α = 1/H < 2,因此我们在收益率分布上观测到尖峰肥尾特性。
3. 对投资者心理的影响
投资品价格的走势都是被无数投资者交易出来的。从一定程度上说,长记忆性是投资者行为在投资品收益率上刻下的烙印。俗话说“一朝被蛇咬十年怕井绳”,那么一次大的股灾显然很容易让投资者变成惊弓之鸟,对大跌的恐惧和风险厌恶显然不是一朝一夕可以忘掉的。这种影响将会是深远的,体现在啊投资者的行为上,便造就了收益率上的长记忆性。
以上便是 Hurst 指数和 FBM 对于投资实践的意义。
6 结语在研究量化投资之初,我从国内的研究报告中接触到了 Hurst 指数(可见它的流行度)。自己尝试后发现效果并不好(尤其样本外)。那时我就在想是自己没用对,还是经过这些研究报告“加工过”的二手资料对 Hurst 指数的理解有误。于是追踪溯源我认真学习了Hurst 指数和 FBM 的原始资料,得出的结论是二手资料对 Hurst 指数的理解有误。终于,今天有机会把我自己对 Hurst 指数和 FBM 的理解写下来,是为了对自己之前学习的总结;是为了让希望真正理解它们的人少走些弯路;是为了抨击那种张嘴就来说“Hurst 指数>0.5 就有趋势能赚钱”的不负责任的态度。
Hurst 指数的使用和错用关键在于对能赚钱的“趋势”的正确理解。对于什么是“趋势”,很多种方法都能自圆其说,并无所谓谁对谁错。如果我们想利用“趋势”赚钱,那么能赚到钱的定义趋势的方法就是好方法;如果我们是想通过严谨的理论来研究收益率的相关性,那么一个符合收益率特性的数学模型就是好方法。Hurst 指数和 FBM 的提出显然是为了后者。Hurst 指数刻画的是去掉漂移率之后,收益率在频域的自相关性,因此以它来判断市场的价格趋势(收益率中的漂移率项)是不合适的。这相当于我们用目标 a 的模型去搞目标 b,这是行不通的。
影响投资品价格的因素众多。站在研究的角度,我们仅能做合理的简化,并选出一些特征。当我们明确研究的目标后,便可以对这些特征数学建模以便更好的理解。但是,无论怎么建模,描述的都仅仅是很小的一部分特征,是我们研究中针对的那一部分的简单抽象。如果认为这就是市场真理(并错误的解读它),无异于刻舟求剑。
参考文献
- Feller, W. (1951). The Asymptotic Distribution of the Range of Sums of Independent Random Variables. The Annals of Mathematical Statistics, Vol. 22, 427 – 432.
- Hurst, H. E. (1951). Long-term storage capacity of reservoirs. Transactions of the American Society of Civil Engineers, Vol. 116, 770 – 799.
- Beran, J. (1994). Statistics for Long-Memory Processes. Chapman & Hall.
- Fink, H., Kluppelberg, C., and Zahle, M. (2013). Conditional distributions of processes related to fractional Brownian motion. Journal of Applied Probability, Vol. 50(1), 166 – 183.
- Kamenshchikov, S. (2014). Transport Catastrophe Analysis as an Alternative to a Monofractal Description: Theory and Application to Financial Crisis Time Series. Journal of Chaos, Vol. 2014.
- Mandelbrot, B. B. (1963). The Variation of Certain Speculative Prices. The Journal of Business, Vol. 36(4), 394 – 419.
- Mandelbrot, B. B. and Van Ness, J. W. (1968). Fractional Brownian Motions, Fractional Noises and Applications. SIAM Review, Vol. 10(4), 422 – 437.
- Oh, G., Kim, S., and Eom, C. (2008). Long-term memory and volatility clustering in high-frequency price changes. Physica A: Statistical Mechanics and its Applications, Vol. 387(5-6), 1247 – 1254.
- Peters E. E. (1994). Fractal Market Analysis: Applying Chaos Theory to Investment and Economics. John Wiley & Sons, Inc.
- Taqqu, M. S. (1975). Weak Convergence to Fractional Brownian Motion and to the Rosenblatt Process, Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, Vol. 31, 287 – 302.