分别用什么描述总体和样本的特征（总体和样本各有什么特点） - 原点资讯

#如何成为数据科学家# #统计概念#

本文翻译自Soner Yıldırım《10 Must-Know Statistical Concepts for Data Scientists》来源：Medium

数据科学是一个跨学科领域。数据科学的基石之一是统计学。如果没有相当水平的统计知识，就很难理解或解释数据。

统计数据帮助我们解释数据。我们使用统计数据根据从总体中抽取的样本来推断有关总体的结果。此外，机器学习和统计学有很多重叠之处。

长话短说，要想成为一名数据科学家，需要学习统计学及其概念。在这篇文章中，我将尝试解释 10 个基本的统计概念。

1.总体和样本

总体是一个组中的所有元素。例如，美国大学生是包括美国所有大学生的总体。欧洲的 25 岁人口包括所有符合描述的人口。

对总体进行分析并不总是可行或可能的，因为我们不能收集一个总体的所有数据，因此，我们使用样本。

2. 正态分布

概率分布是显示事件或实验结果概率的函数。考虑数据框中的一个特征（即列）。这个特征是一个变量，它的概率分布函数显示了它可以取的值的可能性。

概率分布函数在预测分析或机器学习中非常有用。我们可以根据来自该总体的样本的概率分布函数对总体进行预测。

正态（高斯）分布是一种看起来像钟形的概率分布函数。

下图是使用 NumPy 的 numpy.random.randn 函数返回的随机样本创建的典型正态分布曲线的形状。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(1)

典型的正态分布曲线

曲线的峰值表示变量可以采用的最可能值。当我们远离峰值时，这些值的概率会降低。

以下是正态分布的更正式表示。百分比表示落在该区域的数据的百分比。当我们远离均值时，我们开始看到更多的极值，但被观察到的概率却越来越小。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(2)

3. 集中趋势度量

集中趋势是概率分布的中心（或典型）值。最常见的集中趋势度量是均值、中位数和众数。

均值是一系列值的平均值；
中值是按升序或降序对值进行排序时位于中间的值；
众数是最常出现的值。

4. 方差和标准差

方差是值之间变化的度量。它的计算方法是将每个值与平均值差值的平方相加，然后将总和除以样本数。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(3)

标准差是衡量值的分布情况，更具体地说，它是方差的平方根。

注意：均值、中位数、众数、方差和标准差是有助于解释变量的基本描述性统计量。

5. 协方差和相关性

协方差是一种定量度量，表示两个变量的变化相互匹配的程度。更具体地说，协方差根据与均值（或预期）值的偏差来比较两个变量。

下图显示了随机变量 X 和 Y 的一些值。橙色点代表这些变量的均值。这些值相对于变量的平均值变化类似。因此，X 和 Y 之间存在正协方差。

分别用什么描述总体和样本的特征,总体和样本各有什么特点(4)

分别用什么描述总体和样本的特征,总体和样本各有什么特点

栏目热文

选择研究方法应遵循哪些基本要求（选择研究方法要遵循哪些基本原则）

研究假设的十大特征（研究方法的研究假设）

研究假设的可行性特征有哪些（可行性研究属于哪种评价方法）

基础研究统计方法有哪几种（简述统计研究方法）

研究工具信度的主要特征有哪些（选择研究工具时首选的是什么）

研究假设的基本特征有（研究假设的十大特征）

描述性研究可采取哪些调研方法（分析性研究包括哪些研究方法）

研究假设应具备的特征（好的研究假设有哪些基本特征）

描述性研究方法的优缺点（什么是描述性研究方法）

什么样的参数特征不能用概率描述（概率分布的参数有哪些）

文档排行

本站推荐

怎样写诉求文件范文（诉求书的正规写法）

东北为什么那么多黑土地（东北黑土地是怎样形成的）

全球十大沙雕游戏

神犬小七大结局看哭了多少人（神犬小七大结局安心去哪里了）

系围巾的方法女生冬天（16种漂亮的围巾织法）

牛仔短裤配短袖怎么穿最好看（牛仔短裤配什么短袖最好看）