数据分组的最后一个步骤（如何以固定值将一组数据平均分组） - 原点资讯

现在我们可以将两个分位数分布相互绘制，并绘制 45 度线，代表完美拟合的基准。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(9)

Q-Q 图对于累积分布图来说提供了非常相似的解释。实验组的收入具有相同的中位数（线在中心交叉），但尾部更宽（点在左端下方，在右端上方）。

3. 两组对比—检验(Tests)

到目前为止，我们已经看到了不同的可视化方法来显示分布之间的差异。可视化的主要优势是直观性：我们可以通过目测差异并直观地评估它们。

然而，我们可能希望更加严谨，并尝试评估分布之间差异的统计显著性，即回答“观察到的差异是系统性的还是由于抽样噪声？”的问题。

现在，我们将分析不同的检验方法来区分两个分布。

3.1 T检验(T-test)

第一个也是最常见的检验是学生t检验。T检验通常用于比较均值。在这种情况下，我们想要检验两个组之间的收入分布的均值是否相同。两个均值比较检验的检验统计量为：

其中是样本均值，是样本标准差。在一些温和的条件下，检验统计量的渐近分布服从学生t分布。

我们使用 scipy 库的 ttest_ind 函数进行t检验。该函数返回检验统计量和相应的值。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(10)

检验的值为 0.12，因此我们不拒绝在实验组和对照组之间均值无差异的原假设。

注意：t 检验假设两个样本的方差相同，因此其估计是在联合样本上计算的。Welch's t检验允许两个样本的方差不相等。

3.2 标准化均值差异(Standardized Mean Difference,SMD)

通常，当我们进行随机对照试验或 A/B 测试时，对实验组和对照组之间所有变量的均值差异进行测试是一种良好的做法。

然而，由于 t检验统计量的分母依赖于样本大小，t检验因使得值难以在不同研究间进行比较而受到批评。实际上，我们可能在一个差异幅度非常小但样本量很大的实验中得到显著结果，而在一个差异幅度很大但样本量很小的实验中得到非显著结果。

一个被提出的解决方案是标准化均值差异（SMD）。

顾名思义，这不是一个适当的检验统计量，而只是一个标准化的差异，可以计算为：

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(11)

通常，小于 0.1 的值被视为“小”的差异。

在进行 A/B 测试时，将实验组和对照组之间所有变量的平均值以及两者之间的距离度量（无论是 t 检验还是 SMD）汇总到一个称为平衡表的表格中是一个好的做法。

我们可以使用 causalml 库中的 create_table_one 函数生成该表格。正如函数名称所示，平衡表应该是在进行 A/B 测试时首先呈现的表格。

数据分组的最后一个步骤,如何以固定值将一组数据平均分组(12)

数据分组的最后一个步骤,如何以固定值将一组数据平均分组