40,000 篇神经科学论文可能是错误的

机器算法验证 假设检验 多重比较 空间的 神经影像学 神经科学
2022-02-09 03:00:28

我在《经济学人》上看到了一篇关于一篇看似毁灭性的论文[1] 对“大约 40,000 项已发表的 [fMRI] 研究”提出质疑的文章。他们说,这个错误是因为“错误的统计假设”。我阅读了这篇论文,发现它在一定程度上是多重比较校正的问题,但我不是 fMRI 专家,我发现很难理解。

作者所说的错误假设是什么为什么做出这些假设?有什么方法可以绕过这些假设?

信封背面的计算表明,40,000 篇 fMRI 论文的资金(研究生工资、运营成本等)超过了 10 亿美元。


[1] Eklund 等人,集群故障:为什么空间范围的 fMRI 推断会夸大假阳性率,PNAS 2016

1个回答

在40000这个数字上

新闻确实是耸人听闻的,但这篇论文确实很有根据。在我的实验室里讨论了好几天,总而言之,这是一个真正必要的批评,让研究人员反思他们的工作。我建议阅读Thomas Nichols 的以下评论,他是“集群失败:为什么 fMRI 对空间范围的推断导致误报率高”论文的作者之一(对不起,引述过长)。

然而,有一个数字让我感到遗憾:40,000。在试图提及 fMRI 学科的重要性时,我们使用了对整个 fMRI 文献的估计,作为我们的研究结果影响的研究数量。在我们的辩护中,我们发现总体上集群大小推断存在问题(P=0.01 CDT 严重,P=0.001 有偏差),这是主要的推断方法,表明大多数文献受到了影响。然而,影响声明中的数字已被大众媒体报道并引发了一场小型推特风暴。因此,我觉得至少粗略估计一下“我们的工作影响了多少篇文章?”是我的责任。我不是文献计量学家,这确实是一个粗略的练习,但它希望能够让人们了解问题的数量级。

分析代码(在 Matlab 中)如下所示,但这里是精简的: 基于一些合理的概率计算,但可能是文献的脆弱样本,我估计大约 15,000 篇论文使用集群大小推断和校正进行多次测试;其中,大约 3,500 人使用 P=0.01 的 CDT。3,500 篇论文约占全部文献的 9%,或者更有用的是,占包含原始数据的论文的 11%。(当然,这 15,000 或 3,500 个中的一些可能使用非参数推理,但不幸的是,fMRI 很少见——相比之下,它是 FSL 中结构 VBM/DTI 分析的默认推理工具)。

坦率地说,我认为这个数字会更高,但没有意识到大部分研究从未使用任何类型的多重测试校正。(如果你不正确,就不能夸大正确的意义!)这些计算表明 13,000 篇论文没有使用多重测试校正。当然,其中一些可能使用感兴趣区域或子体积分析,但很少有(即临床试验类型的结果)完全没有多重性。我们的论文不是直接关于这个群体的,但是对于使用民间多重测试校正的出版物,P<0.001 & k>10,我们的论文表明这种方法的家庭错误率远远超过 50%。

那么,我们是说 3,500 篇论文是“错误的”吗?这取决于。我们的结果表明 CDT P=0.01 结果夸大了 P 值,但必须检查每项研究……如果效果真的很强,那么 P 值是否有偏差可能并不重要,科学推断将保持不变。但如果效果真的很弱,那么结果可能确实与噪声一致而且,那些没有更正的 13,000 篇论文呢,尤其是在早期文献中很常见?不,它们也不应该被丢掉,但是这些作品需要特别厌倦的眼睛,尤其是在将它们与具有改进的方法标准的新参考文献进行比较时。

他还在最后包括了这张表:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

基本上,SPM(Statistical Parametric Mapping,Matlab 的工具箱)是 fMRI 神经科学研究中使用最广泛的工具。如果您查看论文,您会发现使用 SPM 中的集群的 CDT 为 P = 0.001(标准)几乎可以提供预期的家庭错误率。

由于论文的措辞,作者甚至填写了勘误表:

鉴于对我们论文的广泛误解,Eklund 等人,集群故障:为什么 fMRI 推断空间范围会夸大假阳性率,我们向 PNAS 编辑办公室提交了勘误表:

Eklund 等人的勘误表,集群故障:为什么 fMRI 对空间范围的推断夸大了假阳性率。埃克伦德,安德斯;尼科尔斯,托马斯 E;克努特森,汉斯

有两句话措辞不当,很容易被误解为夸大了我们的结果。

意义声明的最后一句应为:“这些结果质疑许多功能磁共振成像研究的有效性,并可能对弱显着神经影像学结果的解释产生重大影响。”

标题“fMRI 的未来”之后的第一句话应该是:“由于可悲的存档和数据共享实践,有问题的分析不太可能重做。”

这些替换了错误地暗示我们的工作影响了所有 40,000 份出版物的两个句子(请参阅集群推理的文献计量学,以猜测有多少文献可能受到影响)。

在最初拒绝勘误表后,PNAS 同意按照我们在上面提交的内容发布它,理由是它是在纠正解释而不是事实。


关于所谓的 Bug

一些新闻还提到了一个错误作为研究无效的原因。事实上,AFNI 工具之一是对推理的校正不足,在预印本发布在arXiv后,这个问题得到了解决


用于功能性神经成像的统计推断

功能性神经成像包括许多旨在测量大脑中神经元活动的技术(例如 fMRI、EEG、MEG、NIRS、PET 和 SPECT)。这些基于不同的对比机制。fMRI 基于血氧水平依赖 (BOLD) 对比。在基于任务的 fMRI 中,给定一个刺激,大脑中负责接收该刺激的神经元开始消耗能量,这会触发血流动力学反应,改变招募的微区附近的磁共振信号( ) -血管化。5%

使用广义线性模型(GLM),您可以确定哪些体素信号时间序列与实验范式的设计相关(通常是与规范血流动力学响应函数卷积的布尔时间序列,但存在变化)。

因此,此 GLM 为您提供了每个体素时间序列与任务的相似程度。现在,假设您有两组人:通常是患者和对照组。比较各组之间的 GLM 分数可用于显示各组的状况如何调节他们的大脑“激活”模式。

组之间的体素比较是可行的,但由于设备固有的点扩散功能加上平滑预处理步骤,期望体素单独携带所有信息是不合理的。实际上,组间体素的差异应该分布在相邻的体素上。

因此,进行了聚类比较,即只考虑形成聚类的组之间的差异。这种聚类范围阈值是 fMRI 研究中最流行的多重比较校正技术问题就在这里。

SPM 和 FSL 依赖于高斯随机场理论 (RFT) 进行 FWE 校正的体素和集群推理。然而,RFT 集群推理依赖于两个额外的假设。第一个假设是 fMRI 信号的空间平滑度在大脑中是恒定的,第二个假设是空间自相关函数具有特定的形状(平方指数)(30)

在 SPM 中,至少您必须设置标称 FWE 速率以及集群定义阈值 (CDT)。基本上,SPM 发现体素与任务高度相关,并且在使用 CDT 进行阈值处理后,将相邻的体素聚合成簇。在给定 FWER 集 [ 1 ]的情况下,将这些集群大小与随机场理论 (RFT) 中的预期集群范围进行比较。

随机场理论要求活动图是平滑的,是随机场的良好晶格近似。这与应用于卷的平滑量有关。平滑还会影响残差是正态分布的假设,因为通过中心极限定理进行平滑会使数据更加高斯。

作者在 [ 1 ] 中表明,与从随机排列测试 (RPT) 获得的集群范围阈值相比,RFT 的预期集群大小非常小。

在他们最近的论文中,使用静息状态(fMRI 的另一种模式,参与者被指示不要特别思考任何事情)数据,就像人们在图像采集期间执行任务一样,并且进行了组比较,体素和集群-明智的。观察到的误报率(即当您观察到组之间对虚拟任务的信号响应差异时)率应合理地低于设置为的预期 FWE 率。对具有不同范式的随机抽样组重做数百万次分析表明,大多数观察到的 FWE 率高于可接受的水平。α=0.05


@amoeba 在评论中提出了这两个高度相关的问题:

(1) Eklund 等人。PNAS 论文谈到了所有测试的“标称 5% 水平”(参见例如图 1 上的水平黑线)。但是,同一图中的 CDT 是变化的,例如可以是 0.01 和 0.001。CDT 阈值与标称的 I 类错误率有何关系?我对此感到困惑。(2) 你看过 Karl Friston 的回复 http://arxiv.org/abs/1606.08199吗?我读了它,但我不太确定他们在说什么:我是否正确地看到他们同意 Eklund 等人的观点。但是说这是一个“众所周知”的问题?

(1) 好问题。我实际上审查了我的参考资料,让我们看看我现在是否可以更清楚。集群推理基于在应用主阈值CDT,它是任意的)之后形成的集群范围。二次分析中,应用了每个集群的体素数量的阈该阈值基于空簇范围的预期分布,可以从理论(例如RFT)估计,并设置标称FWER。一个很好的参考是[ 2 ]。

(2)感谢这个参考,以前没见过。Flandin & Friston 认为 Eklund 等人。证实了 RFT 推断,因为它们基本上表明,尊重其假设(关于 CDT 和平滑),结果是无偏的。在这种情况下,新结果表明,文献中的不同实践倾向于使推理产生偏差,因为它打破了 RFT 的假设。


关于多重比较

众所周知,神经科学领域的许多研究并不能纠正多重比较,估计在文献的 10% 到 40% 之间。但这些并没有被该声明所解释,每个人都知道这些论文的有效性很脆弱,并且可能存在巨大的误报率。


FWER 超过 70%

作者还报告了一种产生超过 70% 的 FWER 的程序。这种“民间”程序包括应用 CDT 以仅保留高度重要的集群,然后应用另一个任意选择的集群范围阈值(以体素数量为单位)。这有时称为“集合推断”,统计基础薄弱,可能会产生最不可信的结果。


以前的报告

同一作者已经报告了 SPM [ 1 ] 在个别分析中的有效性问题。该领域还有其他被引用的著作。

奇怪的是,基于模拟数据的几份关于群体和个人层面分析的报告得出结论,RFT 阈值实际上是保守的。随着最近处理能力的进步,尽管 RPT 可以更容易地在真实数据上执行,但与 RFT 存在很大差异。


更新:2017 年 10 月 18 日

去年 6 月出现了关于“集群故障”的评论[ 3 ]。有穆勒等人。认为 Eklund 等人提出的结果可能是由于他们的研究中使用了特定的成像预处理技术。基本上,他们在平滑之前将功能图像重新采样到更高的分辨率(虽然可能不是每个研究人员都这样做,但这是大多数 fMRI 分析软件中的常规程序)。他们还注意到 Flandin & Friston 没有。实际上,我在同一个月在温哥华举行的人脑图谱组织 (OHBM) 年会上看到了 Eklund 的演讲,但我不记得对这个问题有任何评论,但这似乎对这个问题至关重要。


[1] Eklund, A.、Andersson, M.、Josephson, C.、Johannesson, M. 和 Knutsson, H. (2012)。使用 SPM 进行参数 fMRI 分析是否产生有效结果?——对 1484 个剩余数据集的实证研究。神经影像学,61(3),565-578。

[2] Woo, CW, Krishnan, A., & Wager, TD (2014)。fMRI 分析中基于集群范围的阈值:陷阱和建议。神经影像学,91, 412-419。

[3] Mueller, K.、Lepsien, J.、Möller, HE 和 Lohmann, G. (2017)。评论:集群失败:为什么 fMRI 对空间范围的推断会夸大假阳性率。人类神经科学前沿,11。