高斯数学有几个系列（高斯数学分几个体系） - 原点资讯

上图展示了高斯过程可以使用的各种核函数。每个核函数的参数不同，你可以拖动滑块改变这些参数的值。当你点击某个滑块时，可以看到图右侧中当前参数是如何影响核函数的。

核函数可分为平稳和非平稳的类型。平稳核函数，例如径向基函数核（RBF）或者周期核，都具有平移不变性，两点之间的协方差只取决于它们之间的相对位置。非平稳核函数，比如线性核，就没有这个限制且取决于绝对位置。径向基函数核的平稳特性可以从其协方差矩阵的对角线带来观察（如下图）。增加长度参数会使得这个带状区域变得更宽，因为距离较远的点彼此之间的相关性增加了。对于周期核，我们还有个参数 P 来决定周期，从而控制了函数每次重复之间的距离。相比之下，线性核的参数 C 让我们得以改变各个函数交汇的点。

还有很多其它的核函数可以描述不同类别的函数，它们使函数拥有我们所希望的形状。Duvenaud 的《Automatic model construction with Gaussian processes》对不同核函数进行了概览，值得一观。我们还可以把几个核函数结合起来用，不过这个以后再讲。

先验分布

回到我们原来的回归任务，正如我们之前提到过的，高斯过程定义了潜在函数的概率分布。由于这是一个多元高斯分布，这些函数也呈正态分布。我们通常假设μ= 0，姑且先考虑还没有观察到任何训练数据的情况。在贝叶斯推断的框架下，我们称之为先验分布 P(X)。

如果还没观察到任何训练样本，该分布会如我们刚开始所假设的，围绕 μ=0 展开。先验分布的维数和测试点的数目 N=∣X∣一致。我们将用核函数来建立协方差矩阵，维数为 N×N。

我们在上一章看过不同核函数的例子，由于核函数被用于定义协方差矩阵的内容，它也就决定了在这个包含所有可能的函数的空间里，哪些类型的函数可能性更大。先验分布还不包含任何额外的信息，这就给了我们一个绝佳的机会来呈现核函数对于函数分布的影响。下图显示了用不同核函数产生的先验分布可以获取到的潜在函数的一些样本。

高斯数学有几个系列,高斯数学分几个体系(13)

点击图片可以得到一系列在高斯过程中使用指定核函数时的连续采样。在每次采样过后，之前的样本会在背景里被淡化。一段时间后，大概可以看到这些函数围绕均值 µ呈正态分布。

通过调节参数，你可以控制所获得的函数的形状，这同时也会改变预测的置信度。方差σ 是一个所有核函数都常见的参数，如果减小它，采样到的函数就会更加紧密地围绕在均值μ 周围。对于线性核而言，设置 σb = 0，我们会得到一组精确地交汇在点 c 的函数，而设置σ_b = 0.2，则会引入一些不确定性，采样到的各个函数会大致经过点 c 附近。

后验分布

那么如果我们观察到了训练数据，会发生什么呢？我们来回顾一下贝叶斯推断的模型，它告诉我们可以把这个额外的信息结合到模型里去，从而得到后验分布 P(X|Y)。我们来进一步看看在高斯过程里怎么用上它。

首先，我们得到测试点 X 和训练点 Y 之间的联合分布 P(X,Y)，这是一个维数为∣Y∣ ∣X∣的多元高斯分布。下图中可以看到，我们把训练点和测试点拼接到一起，计算对应的协方差矩阵。

接下来我们要在高斯分布上做一个之前定义过的运算：通过条件作用从 P(X,Y) 得到 P(X|Y)。这个新分布的维数和测试点的数目 N 一致，呈正态分布。要重点注意的是，条件作用以后均值和标准差会相应发生变化：X∣Y∼N(μ′,Σ′)，具体的细节可以在讲边缘化和条件作用的章节找到。直观上讲，就是训练点为候选的函数设了一个限定范围：要经过训练点。

高斯数学有几个系列,高斯数学分几个体系(14)

增加训练点 (■) 会改变多元高斯分布的维数；通过两两配对核函数的值生成协方差矩阵，结果是一个十二维的分布；在条件作用下，我们会得到一个分布，这个分布可以描述我们对于给定 x 值所预测的函数值。

和先验分布类似，我们可以通过对该分布采样获得一个预测结果。然而，由于采样包含随机性，我们无法保证结果能很好地拟合数据。为了优化预测结果，我们可以用到高斯分布的另一个基础运算。

通过对每个随机变量做边缘化操作，我们可以为第 i 个测试点提取到对应的均值函数的值μ'i，以及标准差σ'i=Σ'ii。和先验分布不同的是，我们做先验分布时会设μ= 0，在那个情况下均值并不太重要。而当我们把条件作用施加在测试数据和训练数据的联合分布上时，得到的分布往往会有个非零的均值，μ′≠ 0。提取μ′ 和 σ′ 不仅会使预测更有意义，还表示出了预测值的置信度。

下图（原图为互动图）展示了一个条件分布的例子。刚开始的时候，没有观察到任何训练点，所以预测的均值保持在 0，标准差对每个测试点来说都是一样的。把光标悬停在协方差矩阵上，你可以看到每个点对当前测试点的影响。只要还没观察到任何训练点，只有相邻的点对彼此有影响。

通过点击可以激活训练点，从而得到一个受到约束的分布。这个变化体现在协方差矩阵的内容里，并且会改变预测到的函数具有的均值和标准差。正如我们所料，在靠近训练数据的区域，预测的不确定性很小，离得越远，不确定性越大。

高斯数学有几个系列,高斯数学分几个体系(15)

没激活任何训练数据的时候，图中显示的是一个高斯过程的先验分布，它使用的是径向基函数核。光标悬停在协方差矩阵上时，渐变色上的不透明度显示了一个函数值对它的相邻点的影响。当我们观察到训练数据的时候，这个分布会发生变化。可以通过点击单个点激活它们。然后，高斯过程被约束，倾向于给那些与这些点相交的函数更高的概率。对训练数据的最佳阐释就蕴含在更新过的均值函数里。

在受到约束的协方差矩阵中，我们可以看到相邻点之间的相关性会被训练数据所影响。如果预测的点在训练数据上，它和其他点就不存在相关性，所以，这个函数必须直接经过它。更远的预测值也会受到训练数据的影响，程度和它的距离相关。

结合不同的核函数

正如我们之前介绍的，高斯过程的强大在于它所选的核函数。这一点使得专家可以把某个领域的知识引入到这个过程中，使得高斯过程足够灵活，足以捕捉训练数据中的趋势。比如，一个专家可以通过为径向基函数核选取一个合适的带宽，来控制结果中的函数的平滑度。

核函数的一大优势是，它们可以被结合起来，形成一个更加专精的核函数。这使得某个领域的专家可以加入更多的信息，使预测更加精确。通常我们结合不同核函数的方法是把它们相乘。我们可以考虑一下两个核函数的情况，比如说一个径向基函数核 k_rbf 和一个周期核 k_per。我们是这样把它们结合起来的：

高斯数学有几个系列,高斯数学分几个体系(16)