我应该使用 MongoDB 而不是在 Python 中以 CSV 格式存储数据吗?

数据挖掘 Python 数据挖掘 数据 CSV mongodb
2022-02-23 07:16:17

我目前正在存储从具有相同但仍然不同结构的多个网站爬取的数据,因此每个爬虫都将数据保存在单独的 csv 中。我打算使用 MongoDB 存储数据,而不是将其存储在 csv 中。

  1. 这对节省空间有好处吗?
  2. 总体而言,这将是有利的,还是除了我必须更改代码之外会有任何缺点吗?
2个回答

如果您是初学者,尝试使用数据库可能会很有用。在现实环境中,数据通常存在于数据库中。因此,了解如何与数据库交互对于数据科学家来说也很重要。

cv 数据是表格的,而 mongodb 是键值的,所以这也是探索新的数据表示方案的机会。

CSV 是一种文件格式,MongoDB 是数据库。

也就是说,数据将通过 JSON(JavaScript Object Notation)格式保存在 MongoDB 中。

它将节省空间,这就是数据库软件的重点,但是您说结构仍然不同,因此每个爬虫都将数据保存在单独的 csv 中,因此您必须以某些正常形式将数据保存在数据库中,因此涉及更多复杂性。总体上取决于您的使用情况,但快速而肮脏的解决方案是 csv 文件。