我曾经在互联网上偶然发现了一种分类数据(即列联表)的图,我真的很喜欢,但我再也没有找到它,我什至不知道它叫什么。它本质上就像一个筛图,因为行高和列宽相对于边际概率进行了缩放。因此,每个盒子都被缩放到独立时预期的相对频率。但是,它与筛网图的不同之处在于,它不是在每个框中绘制交叉影线,而是在每个观察值从双变量均匀图中随机选择的位置绘制一个点(如散点图)。通过这种方式,点的密度反映了观察到的计数与预期计数的匹配程度。也就是说,如果每个盒子的密度都相似,则空模型是合理的, ) 在空模型下可能不太可能。因为绘制的是点而不是交叉影线,所以绘制的元素和观察到的计数之间存在简单直观的对应关系,这对于筛图不一定正确(见下文)。此外,点的随机放置使情节具有“有机”的感觉。此外,颜色可用于突出与空模型有很大差异的框/单元格,图矩阵可用于检查许多不同变量之间的成对关系,因此它可以结合相似图的优点。
- 有谁知道这个情节叫什么?
- 是否有可以在 R 或其他软件(例如,蒙德里安)中轻松完成此操作的包/功能?我在vcd 中找不到类似的东西。当然,它可以从头开始硬编码,但这会很痛苦。
这是筛图的一个简单示例,请注意,在空模型下很容易看出不同类别的预期计数应该如何发挥作用,但很难将交叉影线与实际数字相协调,从而产生一个不非常容易阅读和美学上的丑陋:
B ~B
A 38 4
~A 3 19
就其价值而言,马赛克图有一个相反的问题:虽然更容易看出哪些单元格的计数“太多”或“太少”(相对于空模型),但很难识别这些单元之间的关系。预期的计数本来是。具体来说,列宽是相对于边际概率缩放的,但行高不是,这使得这条信息几乎无法提取。
而现在完全不同的东西......
- 有谁知道使用蓝色表示“太多”和使用红色表示“太少”的惯例来自哪里?这对我来说一直是违反直觉的。在我看来,异常高的密度(或太多的观察)伴随着热,低密度伴随着冷,而且(至少在舞台灯光中)红色是暖色的,蓝色是冷色的。
更新: 如果我没记错的话,我看到的情节是在一本书的一章(介绍或第一章)的 pdf 中,该书作为营销预告片在网上免费提供。这是我从头开始编写的想法的粗略版本:
即使使用这个粗略的版本,我认为它比筛图更容易阅读,并且在某些方面比马赛克图更容易(例如,更容易识别关系小区频率之间将处于独立状态)。最好有一个功能:将使用任何列联表自动执行此操作,b。可以用作绘图矩阵的构建块,并且c.将具有上述图附带的不错的功能(例如马赛克图上的标准化残差图例)。