数据科学中的一个常见问题是以某种清洁(半结构化)格式从各种来源收集数据,并结合来自各种来源的指标以进行更高级别的分析。看看其他人的努力,尤其是这个网站上的其他问题,似乎这个领域的许多人都在做一些重复的工作。例如,分析推文、Facebook 帖子、维基百科文章等是许多大数据问题的一部分。
其中一些数据集可以使用提供商站点提供的公共 API 访问,但通常这些 API 中缺少一些有价值的信息或指标,每个人都必须一次又一次地进行相同的分析。例如,虽然集群用户可能依赖于不同的用例和功能选择,但是拥有 Twitter/Facebook 用户的基本集群在许多大数据应用程序中是有用的,这既不是 API 提供的,也不是在独立数据集中公开可用的.
是否有任何索引或公开可用的数据集托管站点包含可重用于解决其他大数据问题的有价值的数据集?我的意思是像 GitHub(或一组站点/公共数据集,或至少一个综合列表)之类的数据科学。如果没有,没有这样一个数据科学平台的原因是什么?数据的商业价值,需要频繁更新数据集,...?难道我们不能有一个为数据科学家设计的共享数据集的开源模型吗?