分别用什么描述总体和样本的特征,总体和样本各有什么特点

首页 > 书籍文档 > 作者:YD1662023-10-28 16:18:41

#如何成为数据科学家# #统计概念#

本文翻译自Soner Yıldırım《10 Must-Know Statistical Concepts for Data Scientists》来源:Medium

数据科学是一个跨学科领域。数据科学的基石之一是统计学。如果没有相当水平的统计知识,就很难理解或解释数据。

统计数据帮助我们解释数据。我们使用统计数据根据从总体中抽取的样本来推断有关总体的结果。此外,机器学习和统计学有很多重叠之处。

长话短说,要想成为一名数据科学家,需要学习统计学及其概念。在这篇文章中,我将尝试解释 10 个基本的统计概念。

1.总体和样本

总体是一个组中的所有元素。例如,美国大学生是包括美国所有大学生的总体。欧洲的 25 岁人口包括所有符合描述的人口。

对总体进行分析并不总是可行或可能的,因为我们不能收集一个总体的所有数据,因此,我们使用样本。

2. 正态分布

概率分布是显示事件或实验结果概率的函数。考虑数据框中的一个特征(即列)。这个特征是一个变量,它的概率分布函数显示了它可以取的值的可能性。

概率分布函数在预测分析或机器学习中非常有用。我们可以根据来自该总体的样本的概率分布函数对总体进行预测。

正态(高斯)分布是一种看起来像钟形的概率分布函数。

下图是使用 NumPy 的 numpy.random.randn 函数返回的随机样本创建的典型正态分布曲线的形状。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(1)

典型的正态分布曲线

典型的正态分布曲线

曲线的峰值表示变量可以采用的最可能值。当我们远离峰值时,这些值的概率会降低。

以下是正态分布的更正式表示。百分比表示落在该区域的数据的百分比。当我们远离均值时,我们开始看到更多的极值,但被观察到的概率却越来越小。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(2)

3. 集中趋势度量

集中趋势是概率分布的中心(或典型)值。最常见的集中趋势度量是均值、中位数和众数。

4. 方差和标准差

方差是值之间变化的度量。它的计算方法是将每个值与平均值差值的平方相加,然后将总和除以样本数。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(3)

标准差是衡量值的分布情况,更具体地说,它是方差的平方根。

注意:均值、中位数、众数、方差和标准差是有助于解释变量的基本描述性统计量。

5. 协方差和相关性

协方差是一种定量度量,表示两个变量的变化相互匹配的程度。更具体地说,协方差根据与均值(或预期)值的偏差来比较两个变量。

下图显示了随机变量 X 和 Y 的一些值。橙色点代表这些变量的均值。这些值相对于变量的平均值变化类似。因此,X 和 Y 之间存在正协方差。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.