作为审稿人,即使期刊不提供,我能否证明要求提供数据和代码是合理的?

机器算法验证 数据集 验证 可重复研究 参考
2022-02-10 20:37:37

由于科学必须是可重复的,根据定义,人们越来越认识到数据和代码是可重复性的重要组成部分,正如耶鲁大学关于数据和代码共享的圆桌会议所讨论的那样。

在审阅不需要数据和代码共享的期刊的稿件时,我可以要求提供数据和代码吗

  1. 在审查时给我
  2. 在出版时公开(期刊支持增刊)

另外,我该如何表达这样的要求?


更新:虽然我对一般案例感兴趣,但这个特殊案例包括一个包含所有先前发布数据的元分析,并且代码是 SAS 中的简单线性模型

旁注:如果更多研究提供原始数据,则进行交叉研究推断的能力(这是荟萃分析的目标)将大大增强

更新 2

我向编辑索要数据和代码以供审阅,编辑认为该要求合理,并且我在一天之内就收到了要求的材料(足够但带有神秘的变量名称,没有元数据,并且内联注释很少)。

4个回答

就审阅者获取数据而言,如果您需要它来正确完成审阅,您有权获得它。更多的审稿人应该要求提供数据并对其进行评估。许多期刊都有政策要求他们可能需要数据和分析代码来进行审查。

我不清楚出版时的可用性。您似乎是在说您想强制将数据公开作为发布条件的问题。如果它已经不是期刊政策,那是个坏主意。你让出版成为一个不公平的移动目标。他们提交的期望不是要求,您和编辑都应该改变游戏规则。

许多研究人员不知道公共资助的研究人员,他们被要求公开他们的数据。例如,大多数 NIH 拨款都有研究人员必须提供数据的条款。大多数政府资助机构都有数据共享条款,迫使研究人员分享他们发现的东西(也许力量有点强,因为很难失去拨款......尽管可能会失去更新)。公众为数据付费,因此公众有权获得它——在人类研究的情况下,有权匿名获得它。

收集的一些最昂贵和最敏感的数据,即人类 FMRI 数据,也是一些最常公开的数据。不仅仅是公共科学图书馆,该领域的主要期刊都要求提交数据并维护一个公开可用的数据库。我认为这对那些因为成本(非常昂贵)和隐私(这是来自小型研究的人类数据,有时可能是非常敏感的独特临床人群)而反对的人来说意义重大。这些是使这些数据对公众更有价值的原因。隐瞒此类数据的研究人员正在损害购买它的人(每个人),并且需要了解他们的责任在他们的小实验室和出版竞争之外是什么。

如果这项研究是私人资助的,真正是私人资助的,那么祝你好运。

分别处理这两种情况:

作为审阅者:是的,我认为您有理由要求查看数据或代码。但如果我是你,我会准备好查看精简代码或数据子样本之类的东西。人们一直在他们的代码中实施未在本文中报告的未来研究,并且您无权使用所述代码。由于我主要从事生物医学研究,因此我也准备好处理一些相当严格的数据使用协议。

在期刊本身:不。如果研究人员想复制我的结果,他们可以自己找我索要代码——这就是我们有通讯作者的原因。对于数据,绝对不是,在任何情况下都不会。我的数据受 IRB 和保密协议的约束——它不仅仅是公开的。如果我想要一个公开的数据集,我可能会模拟一个具有相似属性的数据集(即 R 的一个网络包中可用的“Faux-Mesa”网络数据),但作为审阅者,你没有强制要求. 如果它是期刊范围的要求,那么作者知道他们的数据/代码在提交时会公开,但如果不是,则不会。你的职责是评估论文本身的质量(因此,出于审查的目的,我可以接受),而不是利用你为论文的接受/拒绝做出贡献的能力来推动本质上是哲学/政治观点的内容超出期刊范围。

充其量,我会在您的评论中加上“我强烈敦促作者尽可能提供他们的代码和数据”,但我不会说比这更强烈,我不会把它放进去“我认为在此之前需要修复的事情”的正式清单。

正如John 所说,审稿人的数据可用性应该是轻而易举的事。仔细审查应包括复制分析,因此需要访问数据。

关于出版后数据的公开可用性,我想说应该与期刊进行一般性的战斗,而不是针对特定的提交。

更笼统地说,资助机构和 IRB 越来越意识到数据共享在科学和伦理上都是研究的必要组成部分。通过增加可能产生正确错误报告的新结果的重新分析的可用性,数据共享增加了研究的潜在收益,从而修改了成本/收益权衡,以使研究参与者受益。当然,有必要告知参与者他们的数据将被共享的可能性,并且还需要设置保护措施以防止参与者被识别的风险增加,但这些在大多数情况下都可以实现。在我自己的研究中,我向参与者(和我的 IRB)保证(1)数据将以强加密格式存储(随着解密技术的进步而更新),

我对此没有任何经验,但在我看来,您可能可以坚持将#1 作为您自己在审查他们的结果时尽职调查的一部分。不过,我不明白你怎么能坚持#2。