使用 R 完成可重复研究的实质性示例

机器算法验证 r 参考 可重复研究
2022-02-05 01:22:57

问题:有没有可以在线免费获得的使用 R 进行可重复研究的好例子?

理想示例: 具体而言,理想示例将提供:

  • 原始数据(理想情况下是解释数据的元数据),
  • 所有 R 代码,包括数据导入、处理、分析和输出生成,
  • Sweave 或其他将最终输出链接到最终文档的方法,
  • 所有格式都可以在读者的计算机上轻松下载和编译。

理想情况下,该示例将是期刊文章或论文,其重点是实际应用主题,而不是统计教学示例。

感兴趣的原因: 我对期刊文章和论文中的应用主题特别感兴趣,因为在这些情况下,会出现几个额外的问题:

  • 出现与数据清理和处理相关的问题,
  • 出现与管理元数据有关的问题,
  • 期刊和论文通常对表格和图形的外观和格式有风格指南的期望,
  • 许多期刊和论文经常有广泛的分析,这些分析提出了有关工作流程(即,如何对分析进行排序)和处理时间(例如,缓存分析等问题)的问题。

看到完整的工作示例可以为开始进行可重复研究的研究人员提供很好的指导材料。

4个回答

多年来,弗兰克哈雷尔一直在鼓吹可重复的研究和报告。您可以从 这个 wiki 页面开始,该页面列出了许多其他资源,包括已发表的研究,还涵盖了 Charles Geyer 的页面。

Biostatistics 杂志有一位可重复性副主编,其所有文章都标有:

可重复研究

我们的可重复研究政策是,如果期刊中的论文所基于的数据可以免费获得,则将其标记为 D,如果作者的代码可以免费获得,则标记为 C,如果数据和代码都可用,则标记为 R,以及我们的再现性副主编能够使用这些来再现论文中的结果。数据和代码作为补充材料以电子方式发布在期刊网站上。

http://biostatistics.oxfordjournals.org/

这是一个多么好的主意?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract在进行分析的补充文件中带有一个 R 包 - 我自己还没有尝试过。此外,无法找到指定开放等级的位置。我正在通过电子邮件向副主编发送一些问题......

[编辑]

副主编 Roger Peng 告诉我,如果不获取 PDF,可能无法找到可复制的论文。他指给我看这个上面有一个很好的大“R”(这并不意味着像电影一样的 R 级)以提高再现性:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

当然,期刊本身不是免费的……#fail

巴里

NCI60 化疗预测因子的不可重复性

这是一个可重现的分析,表明新闻中的一篇论文缺乏重现性。一项基于不可复制论文的错误结论的临床试验被暂停、恢复、再次暂停……这是新闻中可复制分析的一个很好的例子。

我的研究论文页面上有一些这样的例子(作为新成员,我不能发布多个超链接。所以我将仅描述该站点上的论文。)

(1) “在随机实验中体现效果”使用 R 的小插图系统。

(2) “将影响归因于集群随机投票活动”是一篇更复杂的论文,涉及一些耗时的模拟。我们使用了基于 Makefile 的系统并将其发布到 Dataverse

(3) “EDA for HLM”是我最早的尝试。在这里,我只是将数据和相关的 Sweave 文件放在一个 tarball 中。

我们在创建 JASA 存档时发现的一个问题是 CRAN 包的版本和默认值发生了变化。因此,在该存档中,我们还包括我们使用的软件包的版本。当人们更改他们的包时,基于小插图的系统可能会中断(不确定如何在 Compendium 的包中包含额外的包)。

最后,我想知道当 R 本身发生变化时该怎么办。有没有办法生产,比如说,一个虚拟机,它可以复制用于论文的整个计算环境,使得虚拟机不是很大?

无论如何,我希望这些例子有所帮助。至少他们展示了我自己在这方面的一些实验。

(这里有一些纯文本超链接。)

  [2]:http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]:http://hdl.handle.net/1902.1/12174
  [4]:http://hdl.handle.net/1902.1/13376