错误发现应该在数据采集级别进行控制,还是应该在数据解释级别进行?

机器算法验证 多重比较 群体差异 微阵列 哲学的 错误发现率
2022-04-16 20:03:26

错误发现应该在数据采集级别进行控制,还是应该在数据解释级别进行?

我有一个实验,其中使用微阵列来量化两组生物组织(组大小为 75 和 76)中大约 30,000 个基因(变量)的表达。对原始阵列数据进行预处理,以去除无法检测到表达水平的背景信号和基因,并对阵列中的值进行标准化。然后使用 Mann-Whitney U 检验检查最终数据,以比较两组之间的基因表达以识别差异表达的基因,并通过Benjamini-Hochberg程序控制错误发现率 (FDR) 。在 FDR <5% 时,没有基因被鉴定为差异表达,我正式得出结论,“两种组织之间没有基因的差异表达”。

现在,假设有人只对一个特定基因的表达感兴趣。使用我预处理的基因表达数据集和 U 检验,他们比较了两组仅此基因的表达,并注意到 P 值 <0.05,这是我研究领域中常用的显着性阈值。由于这不涉及多次测试,因此没有错误发现控制。这位观察者能否正式得出结论,“基因在两种组织之间存在差异表达”,这与我的结论相矛盾?

或者观察者是否应该应用错误发现控制,因为这种控制必须应用于数据采集级别(据此,收集了多个变量的数据)而不是数据解释级别(据此,只有一个变量的数据)变量进行了分析)?

2个回答

我强烈认为这应该只适用于解释层面。多重性隐含地涉及调查人员对调查的定义(即要控制的研究明智错误率),并且需要准确反映推动生成推理/决策输入过程的意图。(这有点滑,例如,维特根斯坦在他职业生涯的后期承认,他后悔没有在逻辑早期意识到意图。)

例如,如果有人打算进行所有比较,但因为第一个比较好而停止了 - 这是需要处理的多重性。另一方面,如果该比较被可靠地记录为唯一要进行的比较 - 没有。未经许可参加统计课程的数据录入员是否将所有可能的比较作为练习进行,这无关紧要。这听起来像你的情况给我。(这个判断可能很滑,感谢 user603,我可以将Jake 的生日作为一个很好的例子http://www.johndcook.com/blog/2012/09/07/limits-of-statistics/

类似的事情发生在一位早期的同事身上。他们想测试 A 和安慰剂,但有人希望他们也包括 B。他们认为B很傻,但作为一个好人包括B组。结果是 A 与安慰剂相比明显显着,但在调整 B 后则不显着。因此,他们永远无法发表研究。

此外,Ed George 在今年夏天的联席会议上进行了一场精彩的演讲,他实际上是在为那些可以访问数据的人争论分析师的后验,而对于那些只有选择性地了解这项研究的人来说,报告的后验向他们报告。

事后想想他的谈话以及那些可能也适用于分析师的狡猾的意图,“黑衣人”电影似乎是相关的,或者至少他们使用了 Neuralizer - http://en.wikipedia.org/wiki/Neuralizer

就好像贝叶斯分析师知道,一旦他们意识到给定的数据集没有达到某个预设目标,他们就会被神经化。所以当他们得到一个满足它的数据集时,他们意识到他们不知道他们被神经化的频率,但他们知道这次避免被神经化的选择规则。

正如@phaneron 所说,如果您只考虑一个基因,则不需要多重性控制。我想补充一下假设检验有两个目的:(a)说服自己和(b)说服“世界”。出于 (a) 的目的,回想一下 BH 程序控制“对相同假设的重新测试的错误发现的预期比例”。如果您(老实说)考虑对一个假设(snp)的检验,那么手头就没有多重性,剩下的唯一问题是“您发现常客假设检验令人信服吗?”。

就 (b) 而言,困难可能在于说服 snp 的选择是“诚实的”。这在技术上意味着对单个 snp 的关注是使用不同的(因此统计独立的)数据而不是用于假设检验的数据。