本文翻译自Soner Yıldırım《10 Must-Know Statistical Concepts for Data Scientists》来源:Medium
欢迎点赞、收藏,如果觉得有收获的话,请帮忙加个关注,定期分享有价值的文章。提升认知与思维,共同成长、进步。
数据科学是一个跨学科领域。数据科学的基石之一是统计学。如果没有相当水平的统计知识,就很难理解或解释数据。
统计数据帮助我们解释数据。我们使用统计数据根据从总体中抽取的样本来推断有关总体的结果。此外,机器学习和统计学有很多重叠之处。
长话短说,要想成为一名数据科学家,需要学习统计学及其概念。在这篇文章中,我将尝试解释 10 个基本的统计概念。
1.总体和样本
总体是一个组中的所有元素。例如,美国大学生是包括美国所有大学生的总体。欧洲的 25 岁人口包括所有符合描述的人口。
对总体进行分析并不总是可行或可能的,因为我们不能收集一个总体的所有数据,因此,我们使用样本。
2. 正态分布
概率分布是显示事件或实验结果概率的函数。考虑数据框中的一个特征(即列)。这个特征是一个变量,它的概率分布函数显示了它可以取的值的可能性。
概率分布函数在预测分析或机器学习中非常有用。我们可以根据来自该总体的样本的概率分布函数对总体进行预测。
正态(高斯)分布是一种看起来像钟形的概率分布函数。
下图是使用 NumPy 的 numpy.random.randn 函数返回的随机样本创建的典型正态分布曲线的形状。
典型的正态分布曲线(作者图片)
曲线的峰值表示变量可以采用的最可能值。当我们远离峰值时,这些值的概率会降低。
以下是正态分布的更正式表示。百分比表示落在该区域的数据的百分比。当我们远离均值时,我们开始看到更多的极值,但被观察到的概率却越来越小。
3. 集中趋势度量
集中趋势是概率分布的中心(或典型)值。最常见的集中趋势度量是均值、中位数和众数。
- 均值是一系列值的平均值;
- 中值是按升序或降序对值进行排序时位于中间的值;
- 众数是最常出现的值。
4. 方差和标准差
方差是值之间变化的度量。它的计算方法是将每个值与平均值差值的平方相加,然后将总和除以样本数。
标准差是衡量值的分布情况,更具体地说,它是方差的平方根。
注意:均值、中位数、众数、方差和标准差是有助于解释变量的基本描述性统计量。
5. 协方差和相关性
协方差是一种定量度量,表示两个变量的变化相互匹配的程度。更具体地说,协方差根据与均值(或预期)值的偏差来比较两个变量。
下图显示了随机变量 X 和 Y 的一些值。橙色点代表这些变量的均值。这些值相对于变量的平均值变化类似。因此,X 和 Y 之间存在正协方差。