平行坐标图的简单解释

机器算法验证 r 数据可视化
2022-03-12 06:46:09

我已经阅读并看到了很多平行坐标图。有人可以回答以下一组问题:

  1. 什么是简单的平行坐标图(PCP),以便外行可以理解?
  2. 如果可能的话,有一些直觉的数学解释
  3. PCP 何时有用以及何时使用?
  4. PCP什么时候没有用,什么时候应该避免?
  5. PCP 可能的优点和缺点
3个回答

在我看来,PCP 的主要功能是突出个体的同质群体,或者相反(在对偶空间中,与 PCA 类比)不同变量的特定关联模式。当没有太多变量时,它会生成多变量数据集的有效图形摘要。变量会自动缩放到固定范围(通常为 0-1),这相当于使用标准化变量(防止一个变量因缩放问题而影响其他变量),但对于非常高维的数据集(#变量> 10),您肯定需要查看其他显示,例如微阵列研究中使用的波动图热图。

它有助于回答以下问题:

  • 是否存在可以由特定班级成员(例如性别差异)解释的个人分数的一致模式?
  • 在两个或多个变量上观察到的分数之间是否存在任何系统协变(例如,在变量上的高分相关联)?X1X2

在下面的鸢尾花数据图中,可以清楚地看到物种(这里以不同的颜色显示)在考虑花瓣长度和宽度时表现出非常明显的轮廓,或者鸢尾花(蓝色)在花瓣长度方面更加均匀(例如,它们的方差较低)。

替代文字

您甚至可以将其用作分类或降维技术(如 PCA)的后端。大多数情况下,在执行 PCA 时,除了减少特征空间之外,您还希望突出显示个体集群(例如,是否存在在某些变量组合上系统得分更高的个体);这通常通过在因子分数上应用某种层次聚类并突出显示因子空间上的结果聚类成员来降低(参见FactoClass R 包)。

它也用于聚类图(可视化非分层和分层聚类分析),旨在检查增加聚类数量时聚类分配如何演变(另请参阅,在实践中使用什么凝聚层次聚类的停止标准?)。

当链接到通常的散点图(通过构造限制为二维关系)时,此类显示也很有用,这称为亮,可在GGobi数据可视化系统或Mondrian软件中使用。

关于问题 3、4 和 5,我建议您查看这项工作

平行坐标中的感知模式:确定关系识别的阈值作者:Jimmy Johansson、Camilla Forsell、Mats Lind、Matthew Cooper 在 信息可视化中,卷。7,第 2 期。(2008 年),第 152-162 页。

总结他们的发现,人们可以识别每个节点之间关系的斜率方向,但不太擅长识别关系的强度或斜率的程度。他们给出了建议的噪音水平,人们仍然可以在其中破译文章中的关系。不幸的是,这篇文章没有像 chl 演示的那样讨论通过颜色识别子组。

请访问http://www.cs.tau.ac.il/~aiisreal/并查看新书

平行坐标 - 这本书是关于可视化的,将奇妙的人类模式识别系统地纳入解决问题的过程...... www.springer.com/math/cse/book/978-0-387-21507-5。

英寸。10 有很多带有多元数据的真实示例,展示了如何使用平行坐标(缩写 ||-cs)。还值得学习一些数学来可视化和使用多变量/多维关系(表面),而不仅仅是点集。在许多维度上看到和处理熟悉物体的类似物是很有趣的,例如莫比乌斯带、凸集等等。

简而言之,||-cs 是一个多维坐标系,其中轴相互平行,可以看到许多轴。该方法已应用于空中交通管制、计算机视觉、过程控制和决策支持中的冲突解决算法。