交互式数据可视化何时有用?

机器算法验证 数据可视化 数据挖掘 交互式可视化
2022-01-28 21:19:23

在准备即将发表的演讲时,我最近开始深入研究用于交互式数据可视化的两个主要(免费)工具:GGobimondrian - 两者都提供了广泛的功能(即使它们有点错误)。

我想请你帮忙(对我自己和我未来的观众)什么时候使用交互式情节有帮助?数据探索(为我们自己)和数据展示(为“客户”)?

在向客户解释数据时,我可以看到动画的价值:

  • 使用“识别/链接/刷”来查看图表中的哪个数据点是什么。
  • 呈现数据的敏感性分析(例如:“如果我们删除这一点,这就是我们将得到的)
  • 显示数据中不同组的影响(例如:“让我们看看男性的图表,现在看看女性的图表”)
  • 显示时间的影响(或年龄,或一般来说,为演示提供另一个维度)

因为当我们自己探索数据时,我可以看到在我们正在处理的数据集中探索异常值时识别/链接/刷的价值。

但是除了这两个示例之外,我不确定这些技术提供了哪些其他实际用途。尤其是对于我们自己的数据探索!

可以说,交互部分有利于探索(例如)数据中不同组/集群的不同行为。但是当(在实践中)我接近这种情况时,我倾向于做的是运行相关的统计程序(和事后测试)——我发现重要的事情然后我会用颜色清楚地将数据划分为相关群体。据我所见,这是一种比“探索”数据更安全的方法(这很容易导致数据疏浚(如果校正所需的多重比较的范围甚至不清楚)。

我很乐意阅读您对此事的经验/想法。

(这个问题可以是一个维基——虽然它不是主观的,一个深思熟虑的答案会很高兴赢得我的“答案”标记:))

3个回答

除了将定量或定性数据与空间模式联系起来(如@whuber 所示)外,我还想提一下使用 EDA 进行纵向高维数据分析,以及刷涂和各种将图连接在一起。

两者都在Dianne Cook 和 Deborah F. Swayne(Springer User!,2007 年)所著的用 R 和 GGobi 进行数据分析的交互式和动态图形中进行了讨论,您肯定知道。作者在第 1 章中对 EDA 进行了很好的讨论,证明 EDA 有必要“将意想不到的事情强加给我们”,引用 John Tukey (p. 13):交互式和动态显示的使用既不是数据窥探,也不是初步数据检查(例如,数据的纯图形摘要),但它仅被视为可能先于或补充纯基于假设的统计建模的数据的交互式调查。

使用 GGobi 及其 R 接口 ( rggobi ) 还解决了如何为中间报告或最终出版物生成静态图形的问题,即使使用Projection Pursuit (pp. 26-34),这要归功于DescribeDisplayggplot2包。

在同一行中,Michael Friendly长期以来一直主张在分类数据分析中使用数据可视化,这在 vcd 包中得到了很大的体现,而且在最近的vcdExtra包中(包括动态即通过rgl包),其中作为vcdgnm包之间的粘合剂,用于扩展对数线性模型。他最近在第6 届 CARME会议上对这项工作进行了很好的总结,在 R 中使用 vcd、gnm 和 vcdExtra 包可视化分类数据的进展

因此,EDA 也可以被认为是在纯粹的统计建模方法之前与之并行提供数据的视觉解释(从某种意义上说,它可能解释观察到的数据中的意外模式)。也就是说,EDA 不仅为研究手头数据的内部结构提供了有用的方法,而且还可能有助于改进和/或总结应用于数据的统计模型。例如,本质上是双标图允许做的事情。虽然它们本身不是多维分析技术但它们是可视化多维分析结果的工具(通过给出近似值)考虑所有个体或所有变量或两者时的关系)。因子得分可用于后续建模以代替原始度量,以降低维度或提供中间级别的表示。

边注

冒着过时的风险,我仍然不时使用xlispstatLuke Tierney )。它具有简单而有效的交互式显示功能,目前在基本 R 图形中不可用。我不知道 Clojure+Incanter (+Processing) 中的类似功能。

图形的动态链接对于探索性空间数据分析ESDA来说是自然而有效的。ESDA 系统通常将一张或多张定量地图(例如等值线图)与基础数据的表格视图和统计图形联系起来。一些此类功能已成为一些桌面 GIS 系统的一部分大约 15 年,特别是ArcView 3(已停产的商业产品)。免费的GeoDa软件在专为空间数据探索和统计分析而设计的环境中提供了其中一些功能。它很笨重,具有特殊的界面和未经修饰的图形,但几乎没有错误。

这种 EDA 的使用回避了统计测试可能比交互式探索更好的反对意见,因为在许多(大多数?)情况下,没有明确的统计模型,没有明显的(甚至适当的)统计测试,假设测试通常是无关紧要的:人们需要看到发生了什么,发生在哪里,并在空间环境中观察变量之间的统计关系。 并非所有数据分析都是,甚至应该由正式程序组成!

对我来说,交互式可视化仅对我自己的探索有用,或者在与非常动手的客户一起工作时有用。在处理最终演示文稿时,我更喜欢选择最能说明我观点的静态图表。否则,客户可能会完全被令人惊叹的因素分心。

我从中获得的最大好处是速度比我停下来编写解决方案时所获得的检查更多。JMP 是我最喜欢的工具之一,因为它将我想要的很多东西集成到一个界面中。我认为大多数优秀的统计程序员都尝试过 JMP(或 GGobi 等)之类的东西,时间太短,无法真正精通它。尤其是 JMP,您只需查看菜单,就会给人一种熟悉的印象。但是,确实需要通过手册来发现其所有功能。

不过,您提到了我对这种速度水平的主要担忧:您最终完全不知道您的 p 值意味着什么。只需几分钟,您就可以直观地检查数百种关系。毕竟做假设检验是完全误导的,但我看到人们一直这样做。

我喜欢 GGobi 的一个功能是它的投影追踪,您可以在其中指定在高维空间中寻找哪种类型的图案,然后坐下来看着它“追踪”该目标。好东西!