通过对这些文学名著文本中的句长变异性SLV研究发现,在短句和长句二者之间存在一种具有周期规律性的分布,其中涉及到各种长度句子的自相似分布、级联式交替。如图4所示:
图 4:所统计作品的谱密度分布,横坐标是频率,纵坐标为句长
从图中可以看到,表征 SLV 的谱密度分布函数 S(f) 普遍展现出了明显的“ 1 /(f^β)”缩放比例,即存在 β 使得 S(f) = 1/(f^β),且经计算平均标度 β ≈ 1/2。
S(f) 的标度β意味着文本中存在长程相关性(long-range correlations),绝大多数被研究文本都具有这样的分形属性。非常有趣的是,β的值接近之前研究者在音乐作品或脑电波中测量的的水平,它体现了文字作品和生命活动的高度相关。这点在后面还会说到。
对于时间序列事件上有相关性事件的度量,一个重要的指标是赫斯特指数(Hurst exponent)。它起初被用来分析水库与河流之间的进出流量,后来被广泛用于各行各业的分形分析。利用赫斯特指数可以表征网络流量的自相似性,数值越大,说明流量的自相似程度就越高,即整个系统是一长串相互联系事件的结果。
这项研究计算了所有作品的赫斯特指数 H 以度量文本之间的长程相关性。
绝大多数被研究文本都单纯服从以上的分形属性。但令人瞩目的是,具有超文本形式的“意识流”小说,表现出了一种相互交织、不可还原的分形集结构特征,即被称为多重分形的非线性结构特征。为了提取多重分形指标,论文使用针对 SLV 的小波分解(Wavelet Decomposition)进行可视化呈现,以及数值上更稳定和准确的多重分形趋势波动分析(MFDFA)[7] 的方法。
最终计算结果表明,多重分形的度量与赫斯特指数决定的霍尔德指数(Hölder exponent)α 以及其函数 f(α)有关。如图5所示,f(α)是具有特定α点集的分形维数,即多重分形谱。对于一个模型的多重分形序列,f(α)通常被假设为类似于倒抛物线。其中抛物线宽度 ∆α =αmax-αmin 代表多重分形程度,即被视为文本复杂度的的一种度量。
图 5:意识流小说家乔伊斯名著《芬尼根的守夜灵》的多重分形特征
谁是最复杂的小说?在对一百多部名著进行分析后,研究者们发现,意识流小说具有最高的多重分形复杂度。
结果如下图 6 所示:
横坐标 H (degree of persistency),即赫斯特指数,H 越大说明文本单词之间的长程相关性越大。
纵坐标∆α (degree of complexity) 是霍尔德指数的极值差,数值越大则越说明文本的多重分形复杂度越高。
图 6:一百多部名著的长程相关性与复杂度统计
从图中我们可以看到,几乎所有作品的赫斯特指数都大于 0.6。而当0.5<H<1时,表明时间序列存在长期记忆性,这说明了几乎所有的统计的世界名著都存在长期记忆性。
这项对文本复杂性统计指标的计算结果很有趣,也非常符合人们对名著们的直观感受。
例如,不仅意识流作品往往具备更高的多重分形复杂度,其中最高还是著名意识流作家乔伊斯的《芬尼根的守夜灵》(Finnegans Wake), ∆α=0.74,H= 0.77。