事后测试有什么问题?

机器算法验证 事后
2022-01-29 03:25:43

我的统计学教授这么说,我看的所有书都这么说:事后测试是不科学的。您必须首先从理论中得出一个假设,然后收集数据并对其进行分析。

但我真的不明白问题是什么。

假设,我看到不同颜色汽车的销售数据,并形成这样的假设,即从销售的不同颜色汽车的数量来看,街上最大的汽车群应该是白色的。所以有一天我坐在某条街上,注意所有经过我的汽车的颜色。然后我做一些测试并找到任何东西。

现在,假设有一天我很无聊,坐在某条街上,注意所有经过我的汽车的颜色。因为我喜欢图表,所以我绘制了一个漂亮的直方图,发现白色汽车是最大的群体。所以我认为也许街上的大多数汽车都是白色的,并进行了一些测试。

事后检验的结果或对结果的解释与理论驱动*假设检验的结果或解释有何不同?

* 无论如何,与事后测试相反的名称是什么?


我想补充一点,我们关于宇宙(地球围绕太阳运行)的大部分知识都是从观察中事后推导出来的。

在我看来,在物理学中,假设过去一千年来太阳一直在东方升起并非巧合是完全可以的。

4个回答

“你知道,今晚发生在我身上最令人惊奇的事情。我来这里,在去听讲座的路上,我从停车场进来。你不会相信发生了什么。我看到一辆有执照的汽车车牌 ​​ARW 357。你能想象吗?在该州数以百万计的车牌中,我今晚有什么机会看到那个特别的车牌?太棒了!理查德·费曼

我觉得我无法解释这个问题的深层技术方面。但是,我认为其中许多可以简化为直觉。

在第一个设置中,您从一些假设开始,您可以根据新数据(来自设计的实验)验证这些假设。研究销售数据可以引导你进行精心设计的实验,在那里你真的可以决定你的答案应该有多强(统计功效、p 值、样本量和其他许多东西)。

在第二个设置中,首先是您对答案的强度一无所知。这是一个问题。第二个问题是,从用于测试的同一样本中提取假设将以一种非常不可控的方式增加随机模式被解释为有价值信息的机会。你要做的是注意到一些事情(白色汽车很多)并问自己这是否重要。关键是您仅选择了该样本上可见的显着事实,而放弃了其他假设。这样做为某些假设创造了有利条件,并且打破了大多数先验统计检验的假设。

表现得好像你不知道这个泄漏,并假装它是一个包含所有假设的实验,当它不是真的时,这是不科学的。在这种情况下,使用事后分析来制定假设并设计一个全新的实验来检验它是科学的。

如果您首先收集数据,然后根据数据构建理论,那么您就有可能将故事与您的观察结果相吻合。问题是我们人类非常擅长写故事。换句话说:如果故事足够复杂,任何数据都可以用故事“解释”。

这个过程提供了很好的轶事。然而,它没有理由解释现实和/或提供良好的预测。您需要为此设置和验证模型

xkcd 指出,这种现象遍及体育“评论”

体育评论

相关的是幻觉现象:看到不存在的模式。例如,参见人们在早期的火星卫星图像中看到的“脸”:

火星脸

另外,当您收集更多数据时,您需要小心不要以更奇怪的方式调整您的故事,以使其“继续”“解释”您的观察

选举先例

科学的运作方式是形成假设(当然是由经验驱动的),根据这些假设做出预测,然后对其进行检验。观察过去的某些事情,将这种观察推广到理论中,然后将过去本身视为一种自动验证理论的追溯实验,是否有意义?不,因为整个问题是你的理论概括得有多好,而不是它在过去是否有效。这就是为什么检验数据提出的假设被认为是不好的科学。

您的教授和其他答案是正确的,事后分析存在问题。但是,您也说得对,很多好的科学都来自事后分析。关键是应优先考虑设计合理的实验,并且应谨慎处理事后分析,并使用特殊工具防止因实际发现而遗漏虚假伪影。维基百科关于错误发现率的文章可能会对这个问题有所了解。

举几个例子:

  • 如果我们对全世界的牛群采取生物特征测量,我们可以得出结论,牛有两个鼻孔。这实际上是一种事后分析,但大多数生物学、火山学或历史学都是以这种方式构建的。我们不否认牛有两个鼻孔这一事实的原因是支持它如此压倒性的证据。
  • 我们从给定养牛场的前一年出生的小牛身上获取数据。我们意识到,在满月下的每个星期二,超过 50% 的新生小牛是雌性 - 那个国家的公共假期或冬季星期二除外。如果我们之前假设那些日子会产生更多的雌性小牛,我们可以进行假设检验并接受(或拒绝)该假设。但是,如果我们考虑到这只是一种事后分析,则证据不足以拒绝虚假现象。

有一篇经常被引用的文章讽刺地驳斥了降落伞有用的所有证据作为轶事——这只是基于事后分析的一类特别糟糕的证据。

并使用斯蒂芬·科拉萨(Stephan Kolassa)的回答使用的一个很好的例子:一些类似于火星上的脸的黑点可以被拒绝为幻觉,但是将达芬奇的《最后的晚餐》复制到最细微的细节却不能。