我正在开展一个项目,该项目涉及 14 个变量和 345,000 个住房数据观察值(例如建造年份、平方英尺、售价、居住县等)。我关心的是试图找到包含良好绘图技术的良好图形技术和 R 库。
我已经看到 ggplot 和 lattice 中的内容会很好地工作,并且我正在考虑为我的一些数值变量绘制小提琴图。
人们会推荐哪些其他软件包来以清晰、优美、最重要的是简洁的方式显示大量数值或因子类型的变量?
我正在开展一个项目,该项目涉及 14 个变量和 345,000 个住房数据观察值(例如建造年份、平方英尺、售价、居住县等)。我关心的是试图找到包含良好绘图技术的良好图形技术和 R 库。
我已经看到 ggplot 和 lattice 中的内容会很好地工作,并且我正在考虑为我的一些数值变量绘制小提琴图。
人们会推荐哪些其他软件包来以清晰、优美、最重要的是简洁的方式显示大量数值或因子类型的变量?
最好的“图表”是如此明显,还没有人提到它:制作地图。住房数据从根本上取决于空间位置(根据关于房地产的旧见),因此首先要做的是为每个变量制作清晰的详细地图。要在百万分之一的点上做到这一点,确实需要工业级的 GIS,它可以缩短流程的工作时间。之后,继续制作概率图和箱线图来探索单变量分布,绘制散点图矩阵和漂移示意图箱线图等以探索依赖关系是有意义的——但地图会立即建议探索什么,如何建模数据关系,以及如何在地理上将数据分解为有意义的子集。
我建议看一下GGobi,它也有一个 R 接口,至少用于探索目的。它有许多图形显示,对于处理大量观察和变量以及将它们链接在一起特别有用。您可能想先观看Learn GGobi页面 上“观看演示”部分下的一些视频。
更新
根据 chl 在评论中的建议,链接到 Hadley Wickham 的 GGobi 工具:
我觉得你实际上是在问两个问题:1)使用什么类型的可视化和 2)什么 R 包可以产生它们。
在使用什么类型的图表的情况下,有很多,这取决于您的需求(例如:变量类型 - 数字、因子、地理等,以及您有兴趣显示的连接类型):
现在关于如何做到这一点。许多数据点的一个问题是创建绘图的时间。ggplot2、iplots、ggobi 对于太多的数据点不是很好(至少从我的经验来看)。在这种情况下,您可能希望专注于 R 基础图形工具,或对数据进行采样并使用所有其他工具。或者你可以希望开发 iplotsextreme (或Acinonyx)的人能够进入提前发布阶段。