我正在寻找现有的数据集,我们可以使用这些数据集来测试我们正在研究的几种数据可视化技术。
我知道一些资源,例如 R 中包含的资源(尝试plot(Orange)
或查看此处)。
但我想更进一步:
- 哪些是测试可视化工具的最佳真实数据集?
- 您在学术论文或有关 datavis 的教学幻灯片中使用了哪些数据集?
- 现实世界中哪个是展示图形优势的最佳示例?
我正在寻找现有的数据集,我们可以使用这些数据集来测试我们正在研究的几种数据可视化技术。
我知道一些资源,例如 R 中包含的资源(尝试plot(Orange)
或查看此处)。
但我想更进一步:
我喜欢使用Anscombe数据集(在 R 中也可用)来展示在进行回归时绘图的重要性。如果您不熟悉,您会从所有四个数据集中获得相同的回归线和诊断结果,即使这些数据集本身看起来都完全不同。您可以将下面的图转换为残差图,以说明执行回归后您可能在残差中寻找的问题。
现实世界中哪个是展示图形优势的最佳示例?
任何大桌子。例如,“官方人口普查表”的谷歌图片。您会看到类似下面的内容。
另请参阅 Gelman 等人。(2002) 让我们实践我们所宣扬的:将表格变成图表。美国统计学家 56:121-130
互联网上有大量可用的数据库。根据主题,您可以获得不同的来源。
例如,在人类发展主题领域,您可以在 (http://hdrstats.undp.org/) 获得数据源:
http://hdrstats.undp.org/en/tables/default.html
对于气候变化观测,在 (http://www.ipcc-data.org/) 上有一个包含高分辨率气候数据的网站,例如:
http://www.ipcc-data.org/obs/cru_ts2_1.html
这两个示例都包含真实数据,用于已发表的科学论文中,具有大量数据。时间相关和/或空间相关数据。这些数据的可视化可能性是无穷无尽的。
威廉·克利夫兰 (William S. Cleveland) 有两本书充分利用了图形,在可视化数据中创建图形的数据和代码在他的网站上