考虑一个软件 A/B 测试,假设“特征的添加F预计会增加度量X”。
在测试结束时,数据没有显示任何显着变化X,但它确实显示出显着增加Y- 这是在实验开始时没有预料到甚至没有考虑到的。
在这一点上,说F增加是科学有效的Y,还是应该设计和执行新的 A/B 测试?
考虑一个软件 A/B 测试,假设“特征的添加F预计会增加度量X”。
在测试结束时,数据没有显示任何显着变化X,但它确实显示出显着增加Y- 这是在实验开始时没有预料到甚至没有考虑到的。
在这一点上,说F增加是科学有效的Y,还是应该设计和执行新的 A/B 测试?
它看起来类似于药物测试,在药物试验期间报告副作用显然非常重要——即 Y 的增加似乎类似于副作用。一些著名的药物已经开始了他们对副作用的研究。伟哥可能是最著名的案例,它是作为心绞痛药物开发的药物的衍生产品。因此,在您撰写实验时,您绝对应该报告对 Y 的明显影响。但是,如果对 Y 的影响在商业上很重要,那么您仍然需要返回并围绕参考 Y 增加的假设进行实验正确地验证效果的存在。
问题正在从估计一个假设转移到几个假设。可以说 X 和 Y 是对称的,如果我们愿意检查 X,为什么不检查 Y?不同之处在于,由于 Y 不是原始计划的一部分,因此可能还有许多其他变量 Y1、Y2、Yn...
考虑我们有额外的 n 个变量,所有变量都是纯随机的。如果我们有足够大的 n,其中一个将具有似乎与 F 相关的观察结果。如果您考虑一对变量,则您拥有的选项数量变为 O(n^2)。您拥有的假设集越复杂,您将拥有的选项越多,您就越有可能得到错误的相关性。
这并不意味着您应该忽略有关 Y 的结果。许多发现是偶然的。正如 Robert de Graaf 建议的那样,您可以进行另一个实验并检查 YF 关系。您还可以检查多种假设技术,以评估您当前的结果,以估计新关系是否显着。