的计算结果,因此其均值为所有数的总和除以数字的个数n。
我们举一个简单的例子来看一下,假设有一个集合A,该集合中有三个实数如下:
A={1,5,12},其集合A的绝对值为|A|=3,说明该集合有三个实数。
集合A的均值计算过程为:
,因此=6。
在了解均值的基础上,我们延伸到另外一个概念——均值中心化,简单来说,可以理解为将我们所计算出的当前均值作为中心点(“0”)来看待。例如当集合A的均值“6”作为中心点来看的话,相应的集合A的所有数字均需相应地进行位移。
均值中心化这一概念会在线性回归中应用到,对于数据分析也是很重要的一个技巧,在之后相关的内容中,我们会进一步介绍。
至于为何要提出均值这一概念,我们可以这样去理解,如果遇到一个体量非常大的数据集合,均值或许是我们能总结该数据集信息的最简单方式,毕竟这个均值是可以给我们提供一定的信息的。
方差(variance)
虽然均值在一定程度上可以提供关于数据集的信息,但并不总是如此。例如,以下两个集合:
A={1,5,12},B={5,6,7}
和经计算后,两个集合的均值都是6,但实际上两个集合是不一样的,因此我们也需要其他的判断方式或工具来帮助我们进行数据集的区分。
如果在实数轴上来看这两个集合,会发现集合B的延展性更大。
如何知道其延展性具体是多少,我们可以通过方差来进行对比。