使用哪个数据库来存储机器学习数据?

数据挖掘 机器学习
2021-09-26 23:16:35

我目前将我的训练数据存储到 HDF5 文件中,我希望我的团队和我切换到数据库,主要原因有两个:

  • 数据不仅由我使用,不同的数据集存储在不同路径的不同文件夹中等,所以我想创建一个包含所有数据的单一数据库
  • 我们需要存储大量元数据,例如哈希、插入日期、基本事实(可能因应用程序而异)等。

我不知道使用哪个数据库。我的第一个想法是 mongodb 之类的,它不是关系型的,但我想知道那里是否有专门用于深度学习培训的数据库。我听说过 SciDB,但我不知道该怎么想,我在谷歌学者中搜索了“用于机器学习的数据库”,但没有成功。这就是我在这里问这个问题的原因。

预先感谢您的帮助。

1个回答

我在这里分享我快速研究的结果:

我想我会创建一个 mongodb 数据库来存储所有内容,因为它易于使用并且跨 NoSQL 数据库,它是我公司最了解的数据库。

如果要使用数据库,还可以考虑并行访问、数据库的分布式、弹性等。

我认为更高级的解决方案,如共享文件系统、spark、hadoop、sciDB(特别是,sciDB 似乎专门用于数组分析)等对数据湖有好处,当我们想要处理所有数据或其中的很大一部分时同时,例如每批次或通过管道。因此,我暂时不需要它,越简单越好。