什么是合适的图表来说明两个序数变量之间的关系?
我能想到的几个选项:
- 添加随机抖动的散点图以停止点相互隐藏。显然是标准图形 - Minitab 将此称为“个体值图”。在我看来,这可能会产生误导,因为它在视觉上鼓励了序数级别之间的一种线性插值,就好像数据来自区间尺度一样。
- 散点图经过调整,点的大小(面积)表示该级别组合的频率,而不是为每个采样单元绘制一个点。我在实践中偶尔会看到这样的情节。它们可能难以阅读,但这些点位于规则间隔的格上,这在一定程度上克服了对抖动散点图的批评,即它在视觉上“间隔”了数据。
- 特别是如果其中一个变量被视为因变量,则按自变量的水平分组的箱线图。如果因变量的水平数不够高,可能看起来很糟糕(非常“平坦”,缺少胡须,甚至更糟糕的四分位数塌陷,这使得视觉识别中位数变得不可能),但至少引起了对中位数和四分位数的注意,它们是序数变量的相关描述性统计。
- 值表或带有热图的单元格空白网格以指示频率。视觉上不同但概念上类似于散点图,点区域显示频率。
还有其他想法,或关于哪些情节更可取的想法?是否有任何研究领域将某些序数与序数图视为标准?(我似乎记得频率热图在基因组学中很普遍,但怀疑这更常见于标称与标称。)关于良好标准参考的建议也非常受欢迎,我猜来自 Agresti。
如果有人想用图表来说明,则下面是虚假样本数据的 R 代码。
“运动对你来说有多重要?” 1 = 完全不重要,2 = 有点不重要,3 = 既不重要也不不重要,4 = 有点重要,5 = 非常重要。
“你多久跑一次 10 分钟或更长时间?” 1 = 从不,2 = 每两周少于一次,3 = 每一或两周一次,4 = 每周 2 或 3 次,5 = 每周 4 次或更多。
如果将“经常”视为因变量而将“重要性”视为自变量是很自然的,如果图表可以区分两者。
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
我发现一个关于连续变量的相关问题很有帮助,也许是一个有用的起点:在研究两个数值变量之间的关系时,散点图的替代方法是什么?