应用场景
3.协方差:组间差异,描述多维数据
概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
X = np.arange(5)
Y = np.array([10, 12, 14, 16, 18])
plt.figure(figsize=(12,6))
plt.subplot(131) ,plt.bar(X, X), plt.title("X")
plt.subplot(132) ,plt.bar(Y,Y), plt.title("Y")
plt.subplot(133) ,plt.plot(X,Y, 'o:'), plt.title("X vs Y")
covX = np.cov(X, ddof=0)
covY = np.cov(Y, ddof=0)
covXY = np.cov(X,Y, ddof=0)
print(f"X协方差:{covX}, Y协方差:{covY}, XY斜偏差: {covXY}")
##
方差:2.0,协方差:2.5
X协方差:2.0, Y协方差:8.0, XY协偏差: 4.0
X, Y 协方差为4.0 ,是正相关,从上面的图像我们也可以看到像x,y 变化是一致的。
注意:numpy cov 默认自由度为1.
协方差矩阵:[[2. 4.] [4. 8.]], 既然协方差反应了相关性,那我们怎么衡量呢?皮尔逊相关性, 很简单,用协方差除以标准差即可,就是协方差归一化的过程:
4.标准误:衡量抽样误差,越小代表抽样数据越能反应总体的特征