推论统计使用不同的统计方法或假设检验。最为人所知的是假设检验,通过它们可以测试群体之间的差异,例如t检验、卡方检验或方差分析。然后还有一些假设检验:测试变量之间的相关性,例如相关分析和回归分析。
接下来的假设检验(Hypothesis Testing)、相关性分析(Correlation)、回归分析(Regression)都属于推论统计的部分。
假设检验(Hypothesis Testing)通过进行描述性统计学任务,我们对数据有了更好的了解,接下来,就需要检查那些预设的假设(或者描述统计的统计量是否靠谱),看看它们是否基于这个样本数据对总体是正确的还是错误的。这个检查的过程就是假设检验。
如果假设是正确的,则被视为零假设(H0),否则被视为备择假设(H1)。要进行假设检验,我们需要:
- 建立一个零假设(H0)和一个备择假设(H1)
- 然后,选择一个显著性水平(alpha)
- 最后,计算一个检验统计量和一个p值
- 现在,基于p值做出决策
对于假设检验,我们可以使用Python库,如scipy、statsmodels和pingouin。例如:要执行单样本t检验,即检验一个总体的均值是否等于给定值,我们可以使用scipy.stats的ttest_1samp函数或pingouin的ttest函数:
# Import the libraries
from scipy import stats
import pingouin as pg
# Define the sample data and the population mean
data = [1, 2, 3, 4, 5]
popmean = 3.5
# Perform the one-sample t-test using scipy
t, p = stats.ttest_1samp(data, popmean)
print('t = {:.4f}, p = {:.4f}'.format(t, p))
# Perform the one-sample t-test using pingouin
df = pg.ttest(data, popmean)
print(df)
要执行双样本t检验,即检验两个独立组的均值是否相等,我们可以使用scipy.stats的ttest_ind函数,statsmodels.stats的ttest_ind函数,或者pingouin的ttest函数:
# Import the libraries
from scipy import stats
from statsmodels.stats import weightstats
import pingouin as pg
# Define the sample data for two groups
group1 = [1, 2, 3, 4, 5]
group2 = [6, 7, 8, 9, 10]
# Perform the two-sample t-test using scipy
t, p = stats.ttest_ind(group1, group2)
print('t = {:.4f}, p = {:.4f}'.format(t, p))
# Perform the two-sample t-test using statsmodels
t, p, df = weightstats.ttest_ind(group1, group2)
print('t = {:.4f}, p = {:.4f}, df = {:.4f}'.format(t, p, df))
# Perform the two-sample t-test using pingouin
df = pg.ttest(group1, group2)
print(df)
相关性是衡量数据中两个变量之间线性关系的强度和方向的度量。它的取值范围从-1到1,其中-1表示完美的负相关,0表示没有相关性,而1表示完美的正相关。通过分析相关性,我们可以更好地了解变量之间的关联程度,从而决定它们是否可以用于预测或因果推断。
关于相关性参考《》。
回归分析(Regression)如果一个变量依赖于另一个变量,了解“依赖变量随着独立变量的变化而变化的程度,以及我们是否可以使用独立变量来预测依赖变量”是很重要的。
回归分析是一种用于理解和建模因变量与一个或多个自变量之间关系的方法。它可以帮助我们确定自变量对因变量的影响程度,并预测因变量的数值。常见的回归方法包括线性回归、逻辑回归和多项式回归等。
关于回归分析,我们前面有多篇文章介绍,可以参考:
《》
《》
可视化(Visualization)可视化在数据科学中起着至关重要的作用,它可以帮助我们更好地理解数据、发现模式、识别趋势,并向受众传达信息。根据使用场景和目的,可视化可以分为两类:探索性可视化和解释性可视化。
- 探索性可视化:探索性可视化是数据科学家在探索数据时使用的一种工具。它们旨在帮助个人发现数据中的趋势、模式和异常,而不是向他人传达信息。因此,在探索性可视化中,设计和细节通常不是重点,可能会省略标题或使用不一致的颜色方案。探索性可视化通常用于数据科学家在数据集中查找见解,为后续分析和建模提供基础。
- 解释性可视化:解释性可视化旨在向特定受众传达信息,并支持特定的目标或决策。在这种情况下,设计和细节变得至关重要,因为它们直接影响受众对可视化的理解和解释。解释性可视化通常用于报告、演示或决策支持中,其目的是清晰地传达数据见解和结果,以便受众能够理解并采取相应的行动。
探索性可视化和解释性可视化在数据科学中都具有重要作用,但它们的设计和应用方式有所不同,取决于使用场景和目标受众。
关于可视化参考《》
数据驱动世界的动力源自海量数据,数据科学成为解密数据奥秘的方法。统计分析是数据科学的基石,包括描述统计、推论统计和可视化。描述统计概括数据特征,假设检验验证假设,相关性分析探索变量关系,回归分析建模因果关系,可视化传达信息。这些方法共同构成数据科学探索数据世界的工具,帮助我们理解数据、发现价值和见解。