以图形方式显示大量数据的好方法

机器算法验证 r 数据可视化 大数据 探索性数据分析
2022-02-16 09:24:18

我正在开展一个项目,该项目涉及 14 个变量和 345,000 个住房数据观察值(例如建造年份、平方英尺、售价、居住县等)。我关心的是试图找到包含良好绘图技术的良好图形技术和 R 库。

我已经看到 ggplot 和 lattice 中的内容会很好地工作,并且我正在考虑为我的一些数值变量绘制小提琴图。

人们会推荐哪些其他软件包来以清晰、优美、最重要的是简洁的方式显示大量数值或因子类型的变量?

4个回答

最好的“图表”是如此明显,还没有人提到它:制作地图。住房数据从根本上取决于空间位置(根据关于房地产的旧见),因此首先要做的是为每个变量制作清晰的详细地图。要在百万分之一的点上做到这一点,确实需要工业级的 GIS,它可以缩短流程的工作时间。之后,继续制作概率图和箱线图来探索单变量分布,绘制散点图矩阵和漂移示意图箱线图等以探索依赖关系是有意义的——但地图会立即建议探索什么,如何建模数据关系,以及如何在地理上将数据分解为有意义的子集。

我建议看一下GGobi,它也有一个 R 接口,至少用于探索目的。它有许多图形显示,对于处理大量观察和变量以及将它们链接在一起特别有用。您可能想先观看Learn GGobi页面 上“观看演示”部分下的一些视频。

更新

根据 chl 在评论中的建议,链接到 Hadley Wickham 的 GGobi 工具:

  • DescribeDisplay “提供在 R 中重新创建 ggobi 图形的方法的 R 包”
  • clusterfly "探索高维度的聚类结果"
  • rggobi "提供与 GGobi 的简单接口的 R 包"

我觉得你实际上是在问两个问题:1)使用什么类型的可视化和 2)什么 R 包可以产生它们。

在使用什么类型的图表的情况下,有很多,这取决于您的需求(例如:变量类型 - 数字、因子、地理等,以及您有兴趣显示的连接类型):

现在关于如何做到这一点。许多数据点的一个问题是创建绘图的时间。ggplot2、iplots、ggobi 对于太多的数据点不是很好(至少从我的经验来看)。在这种情况下,您可能希望专注于 R 基础图形工具,或对数据进行采样并使用所有其他工具。或者你可以希望开发 iplotsextreme (或Acinonyx)的人能够进入提前发布阶段。

Mondrian提供交互式功能并处理相当大的数据集(不过它是用 Java 编写的)。

Paraview包括 2D/3D 即。特征。