机器算法验证 - 探索性数据分析中的德克萨斯神枪手谬误 - 吾爱随笔录

探索性数据分析中的德克萨斯神枪手谬误

机器算法验证探索性数据分析谬论

2022-02-06 19:28:40

我正在阅读Nature 上的这篇文章，其中在数据分析的背景下解释了一些谬误。我注意到德克萨斯神枪手谬误特别难以避免：

德克萨斯神枪手的寓言说明了数据分析期间等待的认知陷阱：一个无能的射手在谷仓边发射随机模式的子弹，在最大的弹孔群周围画一个目标，并自豪地指向他的成功。

他的靶心显然是可笑的——但对于那些在连胜时相信“热手”的赌徒，或者当彩票开奖时全是奇数时看到超自然意义的人来说，这个谬误并不那么明显。

对于研究人员来说，这也并不总是显而易见的。Pashler 说：“你只是从数据中得到一些鼓励，然后想，嗯，这就是前进的道路。” “你没有意识到你有 27 个不同的选项，而你选择了一个给你最满意或最有趣的结果的选项，而现在你所从事的事情根本不是数据的公正表示。”

我认为这种探索工作是司空见惯的，通常，假设是基于这部分分析构建的。有一个专门用于此过程的完整方法 ( EDA )：

John Tukey 提倡探索性数据分析，以鼓励统计学家探索数据，并可能提出可能导致新数据收集和实验的假设

看起来任何在没有事先假设的情况下执行的探索过程都容易产生虚假的假设。

请注意，上面对 EDA 的描述实际上是在谈论new data collection and experiments. 我了解在收集到新数据后，进行验证性数据分析 (CDA) 是合适的。但是，我认为这种区分不是很清楚，尽管分离 EDA 和 CDA 是理想的，但肯定在某些情况下这是不可行的。我什至会说，严格遵循这种分离是不常见的，大多数从业者根本不赞同 EDA 范式。

所以我的问题是：EDA（或任何探索数据的非正式过程）是否使它更有可能落入德克萨斯神枪手谬误？

4个回答

如果将 EDA 的作用严格视为产生假设，那么神枪手谬误不适用。然而，随后的验证性试验确实是独立的，这一点非常重要。许多研究人员试图通过汇总分析、荟萃分析和贝叶斯方法来“调和差异”。这意味着在这种分析中提出的至少一些证据包括“随机弹孔周围的圆圈”。

这描绘了对探索性数据分析的非常负面的看法。虽然这个论点没有错，但它实际上是在说“当我以错误的方式使用非常重要的工具时会出现什么问题？”

接受来自 EDA 方法的未经调整的 p 值将导致 I 类错误率大大膨胀。但我认为 Tukey 不会对任何这样做的人感到满意。EDA 的重点不是对数据中的关系做出明确的结论，而是在数据中寻找潜在的新关系以进行跟进。

在更大的科学过程中忽略这一步本质上是在束缚科学，使其永远无法在纯粹的逻辑推理之外找到我们数据的新有趣方面。曾经试图从逻辑上推断出一组基因的过度表达将如何影响细胞的存活？提示：这并不容易（在我工作的生物信息学人员中，我们最喜欢的一个笑话是当一位物理学家问“你为什么不只是模拟不同基因相互作用的物理特性？这是一个有限的参数空间。”）

就个人而言，我认为对此的混淆可能会导致科学进步的大幅放缓。我知道有太多非统计研究人员会说他们不想对初步数据进行 EDA 程序，因为他们“知道 EDA 可能很糟糕”。

总之，使用EDA方法并将其视为验证性数据分析方法将导致无效结果是绝对正确的。然而，缺乏正确使用 EDA 会导致几乎没有结果。

看起来任何在没有事先假设的情况下执行的探索过程都容易产生虚假的假设。

我会缓和这个陈述并稍微不同地表达它：如果一个人不使用正确的零假设，那么根据数据选择一个假设进行测试会破坏测试。Nature 文章的主旨本质上是，分析师很容易自欺欺人，忽略他们在探索过程中隐含的所有多重比较。

Nature 引用了 Andrew Gelman 的话，但没有提到他与 Eric Loken 就这个话题发表的论文。摘录：

当我们在这里讨论的一些论文出现对多重比较的批评时，研究人员从不回应他们提前选择了数据处理和数据分析的所有细节。相反，他们声称他们只为他们看到的特定数据选择了一种分析。尽管这种辩护看起来很直观，但它并没有解决多重比较的基本常客问题。

其他：

这并不是说研究人员进行了数百次不同的比较并选择了具有统计学意义的比较。相反，他们从脑海中的某种比较形成的想法开始，然后根据数据完善该想法。他们看到了红色和粉红色的图案，并将颜色组合在一起。

简而言之：

从科学假设到统计假设存在一对多的映射。

还有一个，强调我的：

在我们讨论过的所有案例中，已发表的分析都有一个与推动这项工作的科学假设一致的故事，但其他数据模式（考虑到样本量，很容易偶然发生）自然会导致不同的数据分析（例如，关注主效应而不是相互作用，或选择不同的数据子集进行比较）同样可以用于支持研究假设。正如我们在其他地方所写的那样，结果仍然是一种用于生成和宣传随机模式的机器。

简而言之，并不是 EDA 导致了“虚假假设”；使用与提示假设相同的数据集来测试假设可能会导致错误的结论。

如果您有兴趣克服这个障碍，Gelman 的另一篇论文认为许多这些问题在贝叶斯框架中消失了，而 Loken 的论文引用了本文第一部分中提到的“出版前复制”。

几乎按照定义，是的，没有 CDA 的 EDA 当然会吸引德州神枪手。

无法进行 CDA（可能无法获得更多数据）时的困难在于对自己诚实地说明您实际执行了多少测试，从而为您的发现分配某种值。即使在原则上可以计算搜索空间的情况下，值计算要么错误地完成，要么根本没有完成：参见维基百科的一个臭名昭著的例子。 $p$ $p$

其它你可能感兴趣的问题

上一篇如何计算非正态分布样本中平均值的置信区间？下一篇用于统计计算的 C++ 库