其中 X 和 Y 代表原始随机变量的子集。
通过边缘化,我们可以获取多元概率分布的一部分信息。给定随机变量 X 和 Y 组成的向量的正态概率分布 P(X,Y),我们可以用以下方法确定他们的边缘概率分布:
这个公式所表达的意思很直接了当:X 和 Y 这两个子集各自只依赖于它们 μ 和 Σ 中对应的值。因此,要从高斯分布中边缘化一个随机变量,我们只需把μ 和Σ 里那些对应的变量丢掉就行。
这个公式的意思是,如果我们只对 X=x 的概率感兴趣,我们要考虑 Y 所有可能的值,它们齐心协力才能得到最终的结果。
高斯过程的另一个重要运算是条件作用,它可以用于得到一个变量在另一个变量条件下的概率分布。和边缘化类似,这个运算也是封闭的,会得到一个不同的高斯分布。条件运算是高斯过程的基石,它使贝叶斯推断成为可能。条件作用如下定义:
要注意的是,新的均值只依赖于作为条件的变量,而协方差矩阵则和这个变量无关。
了解了必要的公式以后,我们要思考的是:如何从视觉层面理解这两个运算。虽然边缘化和条件作用可以用于多维的多元分布,还是用下图中的二维分布作为例子更加好理解。边缘化可以理解为在高斯分布的一个维度上做累加,这也符合边缘分布的一般定义。条件作用也有个很好的几何表达——我们可以把它想象成在多元分布上切下一刀,从而获得一个维数更少的高斯分布。