探索变量之间的关系非常模糊,但我猜想检查这样的散点图的两个更一般的目标是:
- 识别潜在的潜在组(变量或案例)。
- 识别异常值(在单变量、双变量或多变量空间中)。
两者都将数据简化为更易于管理的摘要,但目标不同。识别潜在组通常会减少数据中的维度(例如通过 PCA),然后探索变量或案例是否在这个减少的空间中聚集在一起。例如,参见 Friendly (2002) 或 Cook 等人。(1995 年)。
识别异常值可以意味着拟合模型并绘制与模型的偏差(例如绘制回归模型的残差)或将数据简化为其主要组成部分,并仅突出显示偏离模型或数据主体的点。例如,一维或二维的箱线图通常只显示铰链之外的单个点(Wickham & Stryjewski, 2013)。绘制残差有一个很好的特性,它应该使图变平(Tukey,1977),因此剩余点云中关系的任何证据都是“有趣的”。这个关于 CV的问题对识别多元异常值有一些很好的建议。
探索如此大的 SPLOMS 的一种常见方法是不绘制所有单个点,而是绘制某种类型的简化摘要,然后可能是与此摘要有很大差异的点,例如置信椭圆、sagnostic 摘要 (Wilkinson & Wills, 2008)、双变量箱线图,等高线图。下面是绘制定义协方差的椭圆并叠加黄土平滑器以描述线性关联的示例。
(来源:statmethods.net)
无论哪种方式,具有如此多变量的真正成功的交互式绘图可能需要智能排序(Wilkinson,2005)和过滤变量的简单方法(除了刷/链接功能)。此外,任何现实的数据集都需要具有转换轴的能力(例如,在对数尺度上绘制数据,通过求根来转换数据等)。祝你好运,不要只坚持一个情节!
引文