公开可用数据的托管选项

机器算法验证 可重复研究
2022-03-04 07:14:29

因此,您决定支持可重复研究的想法,并希望将您的数据在线提供给人们查看和使用。问题是,你在哪里托管它?

我的第一个倾向当然是我在大学服务器上拥有的私人网络空间,但这些东西实际上并不是那么持久 - 如果我离开,目录会在很短的时间内保持打开状态,然后它就会消失。保持数据可供人们在未来使用和工作的正确设置几乎没有。

你使用 GitHub 或 SourceForge 之类的东西吗?还是其他服务?

有问题的数据是一些非常感兴趣的模拟的输出 - 所以我不一定认为像 InfoChimps 或另一个公共数据存储库这样的地方是它的正确归宿。这不是“您可以使用此代码学习东西!” 以及更多“您可以在本文中复制图 3”。

3个回答

一个简单的选择是github

我用它来分享数据和数据分析代码。这个问题上列出了一些其他人在网站上共享代码和数据的好例子

github的好处

  • 一旦您熟悉了 git,就可以轻松上传,为什么不使用 git 来满足您的版本控制需求。
  • 您可以将要点用于简单的单个文件
  • 其他人可以轻松下载单个或多个文件作为存档
  • 它有大量的免费存储空间
  • 源代码可以在网上浏览
  • 和更多...

当然,github 对于数据来说并不完美。我可以看到使用更永久的机构存储库或其他一些专用工具进行更严肃归档的优点。

另一种选择似乎是Dataverse,它可以作为服务和开源软件使用。不过,我没有尝试过。

学术界人士的一种可能性是使用通常由校园图书馆托管的校园数字存储库(对我来说,这是伴随出版物的数据集的逻辑位置)。

一个流行的(免费)数字存储库是DSpace,据我了解,它可以托管数据集。但这是您机构中必须有人主持的服务。