数据挖掘 - 公开可用的数据集 - 吾爱随笔录

公开可用的数据集

数据挖掘开源的数据集

2021-09-13 19:17:51

数据科学中的一个常见问题是以某种清洁（半结构化）格式从各种来源收集数据，并结合来自各种来源的指标以进行更高级别的分析。看看其他人的努力，尤其是这个网站上的其他问题，似乎这个领域的许多人都在做一些重复的工作。例如，分析推文、Facebook 帖子、维基百科文章等是许多大数据问题的一部分。

其中一些数据集可以使用提供商站点提供的公共 API 访问，但通常这些 API 中缺少一些有价值的信息或指标，每个人都必须一次又一次地进行相同的分析。例如，虽然集群用户可能依赖于不同的用例和功能选择，但是拥有 Twitter/Facebook 用户的基本集群在许多大数据应用程序中是有用的，这既不是 API 提供的，也不是在独立数据集中公开可用的.

是否有任何索引或公开可用的数据集托管站点包含可重用于解决其他大数据问题的有价值的数据集？我的意思是像 GitHub（或一组站点/公共数据集，或至少一个综合列表）之类的数据科学。如果没有，没有这样一个数据科学平台的原因是什么？数据的商业价值，需要频繁更新数据集，...？难道我们不能有一个为数据科学家设计的共享数据集的开源模型吗？

4个回答

事实上，有一个非常合理的公开可用数据集列表，由不同的企业/来源支持。

其中一些如下：

现在，关于你的问题有两个考虑。第一个，关于数据库共享的政策。从个人经验来看，有些数据库不能公开，要么涉及隐私限制（如一些社交网络信息），要么涉及政府信息（如卫生系统数据库）。

另一点涉及数据集的使用/应用。尽管可以重新处理一些基础以适应应用程序的需求，但最好有目的对数据集进行一些很好的组织。分类法应该涉及社会图分析、项集挖掘、分类以及可能存在的许多其他研究领域。

更新：

Kaggle.com是现代数据科学和机器学习爱好者的家园:)，它开设了自己的数据集存储库。

除了列出的来源。

一些社交网络数据集：

Stats SE 列出了很多来源：

有许多公开可用的数据集，许多人经常忽略的是data.gov。如前所述，Freebase 很棒，@Rubens 发布的所有示例也很棒

Freebase是一个免费的社区驱动的数据库，它涵盖了许多有趣的主题，并包含大约 25 亿个机器可读格式的事实。它也有很好的 API 来执行数据查询。

这是另一个已编译的开放数据集列表

其它你可能感兴趣的问题

上一篇scikit-learn 模型中的 fit 和 fit_transform 有什么区别？下一篇混合数值和分类数据的 K-Means 聚类