计算出来的n分别是104355,104357。网上很多文章这里用的都是双尾的样本量,个人觉得这里用单尾就行,如理解有误,欢迎指正[惊喜]
实验前,计算出每个评估指标需要的样本量,取最大值进行测试即可。
工具上有在线计算器、R(power.prop.test)、python(statsmodels.stats.power)等。
04
测试执行时长
AB测试的执行时长会影响测试结论的准确性。比如,时间太短的话,可能参与测试的用户主要是产品高频用户,或者进入实验的样本量不足而影响测试结论。另外,新奇效应可能导致优化方案在短期内带来好的效果,但长期影响不大;或者由于学习曲线的存在,当我们进行了一些视觉或者交互调整时,用户短时间内未适应。
AB测试时间长度并没有一个统一的标准,主要看测试的内容和目标用户的使用习惯,要与用户使用周期相匹配,覆盖多个周期才能得到足够数量且有代表性的样本,同时要注意包含工作日和节假日。