列联表的筛子/马赛克图的替代方案

机器算法验证 r 数据可视化 分类数据
2022-02-09 22:52:13

我曾经在互联网上偶然发现了一种分类数据(即列联表)的图,我真的很喜欢,但我再也没有找到它,我什至不知道它叫什么。它本质上就像一个筛图,因为行高和列宽相对于边际概率进行了缩放。因此,每个盒子都被缩放到独立时预期的相对频率。但是,它与筛网图的不同之处在于,它不是在每个框中绘制交叉影线,而是在每个观察值从双变量均匀图中随机选择的位置绘制一个点(如散点图)。通过这种方式,点的密度反映了观察到的计数与预期计数的匹配程度。也就是说,如果每个盒子的密度都相似,则空模型是合理的,i,j ) 在空模型下可能不太可能。因为绘制的是点而不是交叉影线,所以绘制的元素和观察到的计数之间存在简单直观的对应关系,这对于筛图不一定正确(见下文)。此外,点的随机放置使情节具有“有机”的感觉。此外,颜色可用于突出与空模型有很大差异的框/单元格,图矩阵可用于检查许多不同变量之间的成对关系,因此它可以结合相似图的优点。

  • 有谁知道这个情节叫什么?
  • 是否有可以在 R 或其他软件(例如,蒙德里安)中轻松完成此操作的包/功能?我在vcd 中找不到类似的东西当然,它可以从头开始硬编码,但这会很痛苦。

这是筛图的一个简单示例,请注意,在空模型下很容易看出不同类别的预期计数应该如何发挥作用,但很难将交叉影线与实际数字相协调,从而产生一个不非常容易阅读和美学上的丑陋:

    B ~B
 A 38  4
~A  3 19

在此处输入图像描述
就其价值而言,马赛克图有一个相反的问题:虽然更容易看出哪些单元格的计数“太多”或“太少”(相对于空模型),但很难识别这些单元之间的关系。预期的计数本来是。具体来说,列宽是相对于边际概率缩放的,但行高不是,这使得这条信息几乎无法提取。
在此处输入图像描述
而现在完全不同的东西......

  • 有谁知道使用蓝色表示“太多”和使用红色表示“太少”的惯例来自哪里?这对我来说一直是违反直觉的。在我看来,异常高的密度(或太多的观察)伴随着,低密度伴随着,而且(至少在舞台灯光中)红色是暖色的,蓝色是冷色的。

更新: 如果我没记错的话,我看到的情节是在一本书的一章(介绍或第一章)的 pdf 中,该书作为营销预告片在网上免费提供。这是我从头开始编写的想法的粗略版本:
在此处输入图像描述
即使使用这个粗略的版本,我认为它比筛图更容易阅读,并且在某些方面比马赛克图更容易(例如,更容易识别关系小区频率之间将处于独立状态)。最好有一个功能将使用任何列联表自动执行此操作,b。可以用作绘图矩阵的构建块,并且c.将具有上述图附带的不错的功能(例如马赛克图上的标准化残差图例)。

2个回答

您描述的这本书听起来像“可视化分类数据”,Michael Friendly。第 1 章中描述的似乎符合您的要求的图被描述为一种用于可视化列联表数据的概念模型(作者松散地描述为具有观测密度的动态压力模型),可以在 google 预览中看到对于第 1 章。这本书面向 SAS 用户。

此处引用了有关该主题的论文: www.datavis.ca/papers/koln/kolnpapr.pdf

“用于可视化列联表数据的概念模型”,Michael Friendly。

http://i47.tinypic.com/148n5n7.jpg

在此处输入图像描述

*顺便说一句,作者也被列为 vcd 包的作者之一(因为它特别受到他上面提到的书的启发)——也许你可以直接问他是否对其中一个内置函数进行了简单的修改不是很明显。

** 配色方案似乎将蓝色与独立的正偏差联系起来,将红色与负偏差联系起来。尽管红色方案在这种情况下是有意义的,但也许更倾向于使用绿色来表示正偏差。

http://www.datavis.ca/papers/asa92.html

也许不是您所看到的,但是对于独立对应图下预期的偏离的可视化, 动机很好。

http://www.jstatsoft.org/v20/i03/

(顺便说一句,SAS 和 M Friendly 的书对推荐的调整有误,并且许多情节中有伪影,这可能会分散他们的感知价值。)