我读了这篇关于“如何不运行 A/B 测试”的文章。
而且我仍然不明白作者的推理到底是什么。有人可以为我降低它吗?
我认为它可能会说随着时间的推移阅读我的拆分测试结果会误导我。不过,我希望能够很好地理解这一点,以便我可以向其他人解释。
有什么帮助吗?
我读了这篇关于“如何不运行 A/B 测试”的文章。
而且我仍然不明白作者的推理到底是什么。有人可以为我降低它吗?
我认为它可能会说随着时间的推移阅读我的拆分测试结果会误导我。不过,我希望能够很好地理解这一点,以便我可以向其他人解释。
有什么帮助吗?
这是“三分之二”的现象。 你知道这个笑话:
“让我们为它翻转。”
“好,出发!”
“哎呀,我输了。要不要再翻转两次,总次数最多的就是赢家?”
显着性测试与抛硬币完全一样(但通常使用有偏差的硬币)。如果您运行一个简短的测试并且它并不重要,也许您可以通过延长测试来获得重要意义(部分通过运气)。
与此相反(我很想说这个的“反面”:-))是,如果您计划进行一定数量的测试并碰巧在早期看到“显着”结果,那也不是决定性的。这类似于我们第一次比赛的反面:
“让我们翻一下吧。三分之二最好?”
“好,出发!”
“哈,第一局我赢了,所以我赢了!”
话虽如此,请注意有些版本的测试允许您在进行过程中监控(标称)重要性。这些工作就像在比赛过于片面时提前结束比赛,即所谓的怜悯规则。如果在早期阶段,差异非常明显,那么您可以通过结束测试来节省时间和精力。这些被称为顺序假设检验程序。可以很好地证明这些应该是您进行 AB 测试的标准方式,因为从长远来看,您将花费更少的时间和精力。