数据分组的最后一个步骤,如何以固定值将一组数据平均分组

首页 > 体育 > 作者:YD1662023-10-31 06:33:54

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(1)

来源:我得学城本文约5900字,建议阅读10分钟本文我们将介绍比较两个(或多个)分布以及评估它们之间差异的大小和显著性的不同方法。

在数据科学中,比较不同组之间的变量的经验分布是一个常见的问题。特别是在因果推断中,当我们需要评估随机化的质量时,这个问题经常出现。

当我们想评估某个政策(或用户体验特性、广告活动、药物等)的因果效应时,因果推断中的黄金标准是随机对照试验(randomized control trials),也被称为A/B测试( A/B tests)。

在实践中,我们选择一个样本进行研究,并随机将其分为对照组(control)和实验组(treatment),然后比较两个组之间的结果。随机化确保两个组之间唯一的区别是实验,平均而言,这样我们就可以将结果差异归因于实验效果。

问题在于,尽管进行了随机化,但两个组永远不会完全相同。

然而,有时它们甚至都不是“相似的”。

例如,一个组中可能有更多的男性或年长的人等。我们通常称这些特征为协变量(covariates)或控制变量(control variables)。

当出现这种情况时,我们无法确定结果差异仅仅是由于实验导致的,而不能归因于不平衡的协变量。因此,在随机化之后,检查所有观察变量在各组之间是否平衡,并且是否没有系统性差异,是非常重要的。

另一种选择是通过分层抽样来确保在先验条件下某些协变量是平衡的。

我们将考虑两种不同的方法,即可视化(visual)和统计方法(statistical)。

这两种方法通常在直观性和严谨性方面进行权衡:通过图表,我们可以快速评估和探索差异,但很难确定这些差异是系统性的还是由于噪音引起的。

文章来源:

https://towardsdatascience.com/how-to-compare-two-or-more-distributions-9b06ee4d30bf 作者为 Matteo Courthoud

1. 示例介绍

让我们假设我们需要对一组个体进行实验,并将他们随机分为实验组和对照组。我们希望他们在尽可能多的方面相似,以便将两组之间的任何差异归因于实验效果本身。我们还将实验组分为不同的分组,以测试不同的实验方法(例如同一药物的轻微变化)。

针对这个例子,我模拟了一个包含1000个个体的数据集,我们观察到其中一组特征。我从src.dgp导入了数据生成过程dgp_rnd_assignment(),还从src.utils导入了一些绘图函数和库。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(2)

我们拥有 1000 个个体的信息,我们观察到他们的性别、年龄和每周收入。每个个体被分配到实验组或对照组,并且接受实验的个体分布在四个实验组中。

2. 两组对比—绘图(Plots)

我们先从最简单的设置开始:我们想比较实验组和对照组之间收入的分布。我们首先探索可视化方法,然后再使用统计方法。第一种方法的优势是直观性,而第二种方法的优势是严谨性。

在大多数可视化中,我将使用 Python 的 seaborn 库。

2.1 箱线图(Boxplot)

第一种可视化方法是箱线图。

箱线图在总结统计和数据可视化之间取得了很好的平衡。箱子的中间代表中位数,边界分别代表第一(Q1)和第三(Q3)四分位数。而箱线图的须(whiskers)则延伸到离箱子外部超过 1.5 倍四分位距(Q3 - Q1)的第一个数据点。落在须外的点会单独绘制,通常被认为是异常值(outliers)。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(3)

因此,箱线图既提供了总结统计信息(箱子和须),又提供了直接的数据可视化(异常值)。

实验组的收入分布似乎稍微更分散:橙色的箱子更大,须覆盖的范围更广。然而,箱线图的问题在于它隐藏了数据的形状,只告诉我们一些总结统计信息,而不显示实际的数据分布。

2.2 直方图(Histogram)

绘制分布最直观的方法是使用直方图。

直方图将数据分组到等宽的箱(bins)中,并绘制每个箱内的观察次数。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.