机器算法验证 - 我们如何定义“可重复的研究”？ - 吾爱随笔录

我们如何定义“可重复的研究”？

机器算法验证可重复研究哲学的

2022-01-18 09:01:02

这已经出现在几个问题中，我一直在想一些事情。整个领域是否已经转向关注原始数据和相关代码的可用性的“可重复性”？

我总是被告知，再现性的核心并不一定是，正如我所提到的，点击运行并获得相同结果的能力。数据和代码方法似乎假设数据是正确的——数据本身的收集没有缺陷（在科学欺诈的情况下通常是错误的）。它还关注目标人群的单个样本，而不是发现在多个独立样本上的可复制性。

为什么强调能够重新运行分析，而不是从头开始重复研究？

以下评论中提到的文章可在此处获得。

3个回答

“可重复性研究”作为可重复性分析

可重复性研究是一些研究领域中使用的一个术语，专门指进行分析，使得

代码将原始数据和元数据转换为处理后的数据，
代码对数据进行分析，并且
代码将分析合并到报告中。

共享此类数据和代码时，其他研究人员可以：

执行原始研究人员未报告的分析
检查原始研究人员进行的分析的正确性

这种用法可以在Sweave等技术的讨论中看到。例如，Friedrich Leisch 在 Sweave 的上下文中写道，“如果数据或分析发生变化，报告可以自动更新，从而实现真正可重复的研究。” 这也可以在CRAN 的可重复研究任务视图中看到，该视图指出“可重复研究的目标是将特定指令与数据分析和实验数据联系起来，以便可以重新创建、更好地理解和验证学术成果。”

更广泛地使用术语“再现性”

可重复性是科学的基本目标。这不是新的。研究报告包括方法和结果部分，应概述数据是如何生成、处理和分析的。一般规则是所提供的详细信息应足以使适当称职的研究人员能够获取所提供的信息并复制研究。

再现性也与可复制性和泛化的概念密切相关。

因此，从字面上看，“可重复性研究”一词应用于 Sweave 等技术是用词不当，因为它暗示的相关性比它所涵盖的范围更广。此外，当向未使用过此类技术的研究人员展示 Sweave 之类的技术时，当我将这一过程称为“可重复性研究”时，这些研究人员通常会感到惊讶。

比“可重复研究”更好的术语

鉴于在类似 Sweave 的上下文中使用的“可重复研究”仅涉及可重复研究的一个方面，也许应该采用一个替代术语。可能的替代方案包括：

重现性分析：
- John D Cook 使用了这个词
- 詹妮弗·布莱克福德使用术语“可靠和可重复的分析”
可重复的数据分析
- Christophe Pouzat使用这个术语
可重复的统计分析
- Vanderbilt 的 Biostats 网站使用术语“可重复的统计分析和报告活动”
可重现的报告

以上所有术语都更准确地反映了类 Sweave 分析所需要的内容。可重现的分析简短而有趣。添加“数据”或“统计”进一步澄清了事情，但也使术语变得更长和更窄。此外，“统计”有狭义和广义之分，当然在狭义中，很多数据处理都不是统计的。因此，术语“可重复分析”所暗示的广度有其优势。

这不仅仅是关于可重复性

术语“可重复性研究”的另一个附加问题是 Sweave 类技术的目标不仅仅是“可重复性”。有几个相互关联的目标：

再现性
- 是否可以轻松地重新运行分析以将原始数据转换为具有相同结果的最终报告？
正确性
- 数据分析是否与研究人员的意图一致？
- 研究人员的意图是否正确？
开放性
- 透明度、问责制
  - 其他人可以检查和验证所执行分析的准确性吗？
- 可扩展性、可修改性
  - 其他人能否修改、扩展、重用和混合数据、分析或两者兼而有之，以创建新的研究工作？

有一种观点认为，可重复的分析应该促进正确的分析，因为存在可以检查的书面分析记录。此外，如果共享数据和代码，它会产生问责制，从而激励研究人员检查他们的分析，并使其他研究人员能够注意到更正。

可重复分析也与围绕开放研究的概念密切相关。当然，研究人员可以只为自己使用类似 Sweave 的技术。开放研究原则鼓励共享数据和分析代码，以实现更多的重用和问责制。

这并不是对使用“可复制”一词的真正批评。相反，它只是强调使用类似 Sweave 的技术是必要的，但不足以实现开放的科学研究目标。

以易于执行的形式访问用于分析的数据和代码是可重复研究的必要条件。一旦您确认分析有效，您可以在您对原作者的怀疑的地方替换您自己的代码/数据。我想说的是，我读过的大多数包含统计数据的论文都至少有一部分方法论是模糊的。我试图重现这些分析通常是不成功的（而且总是很耗时），但很难说这是因为欺诈、人为错误，还是（更有可能）我以不同于作者的方式解决了这些歧义。因此，论文的数据+代码并不能保证其结论是正确的，但它可以更容易地批评或扩展它们。

此外，“可重复性研究”是一个程度问题。因此，可重复研究运动可以被视为鼓励比规范“更具可重复性”的研究，而不是要求研究达到某个最低限度。我猜想“发布数据和代码”现在很流行，因为这是一个相对容易且没有威胁性的步骤。

能够重新运行一切是可重复研究的起点。它允许表明您实际上正在使用相同的程序。在那之后——而且只有在那之后——你可以继续你的同行的研究。换句话说，严格的可重复性不应被视为研究向前发展的时间，而是一个里程碑，一种共识，人们同意的东西。这不是进一步发展的基础吗？

此外，根据Donoho的讨论（阅读第 2 节“丑闻”），可重复研究的目的也是测试给定代码的稳健性。首先通过玩代码，进行论文中未完成的轻微修改（因为我们不想要具有 30 个数字的论文......）。我认为文献中可重复研究的概念包含了具有强大的里程碑意义的想法。它几乎包含了更进一步的想法。

其它你可能感兴趣的问题

上一篇ARIMA 中的 p、d、q 值是多少？下一篇有谁知道任何用于可视化数据库数据的优秀开源软件？