机器算法验证 - 我是否需要丢弃 90% 的实验以使样本独立？ - 吾爱随笔录

我是否需要丢弃 90% 的实验以使样本独立？

机器算法验证假设检验独立测试

2022-04-06 07:56:57

我正在阅读 David Diez 的 OpenIntro Statistics，他说要对一个样本进行推断意味着我们需要验证观察结果是独立的：

我正在运行 A/B 测试，并且想对样本均值进行推断，是否需要丢弃 90% 的实验才能满足此条件？

更多背景信息：A/B 测试在网站上运行，每个实验都是分配了 2 个网站变体之一的用户。

1个回答

您绝对不需要丢弃 90% 的观察结果。这篇文章谈到了从（有限）总体中抽样。如果您的总体中有 10,000 个单位，则文章建议您抽取一个小于 1,000 个的样本。我对此原因的直觉是这样做会产生随机样本的属性，这些属性类似于您从独立观察的无限样本中抽取（或从有限总体中替换抽取）。如果您的样本占总体的比例较大，则可能会通过以下方式诱导观察结果之间的依赖性：

想象一下，您有 5 个单位的人口，并且正在无放回抽样。如果您随机抽取了两个单位，并准备抽取第三个单位，则下一次抽签取决于您选择的其他两个单位中的哪一个；它不独立于其他两个。如果你了解你的人口并且知道你已经画了谁，你可以根据你之前画过的人来预测你下一个画的人的特征。这是违反独立性的。

我们的许多统计方法都依赖于从无限人口中抽取或从有限人口中替换抽取；从有限的人口中无替换地绘制会导致上述 I 的依赖性。就统计特性而言，从同一总体中抽取一个足够小的样本（即 10% 的人口）而不进行替换似乎将近似于从同一人口中抽取一个有替换的样本。这可能是作者提出此建议的原因。

此建议（可能）不适用于您的情况。如果您从足够多的人口（即网站的所有潜在用户）中“抽样”，那么您肯定会抽取不到 10% 的人口。您在样本中收集的数据不应因我描述的问题而受到侵犯独立性的影响；如果存在独立性违规，则与文章中的第二个子句更相关（即，由于您的研究设计）。

其它你可能感兴趣的问题

上一篇多元线性回归置信区间方差项的含义下一篇Type II SS 在混合模型中应该如何计算？