我同意@PeterFlom 的观点,这个例子很奇怪,但抛开这一点,我注意到解释变量是分类的。如果这始终是正确的,它会大大简化这一点。我会使用马赛克图来呈现这些效果。马赛克图垂直显示条件比例,但每个类别的宽度相对于样本中的边缘(即无条件)比例进行缩放。
以下是使用 R 创建的泰坦尼克号灾难数据示例:
data(Titanic)
sex.table = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
# Sex
# Survived Male Female
# No 0.788 0.268
# Yes 0.212 0.732
round(prop.table(t(class.table), margin=2), digits=3)
# Class
# Survived 1st 2nd 3rd Crew
# No 0.375 0.586 0.748 0.760
# Yes 0.625 0.414 0.252 0.240
windows(height=3, width=6)
par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
mosaicplot(sex.table, main="")
mosaicplot(class.table, main="")
在左边,我们看到女性更有可能存活下来,但男性可能占船上人员的 80% 左右。因此,增加男性幸存者的百分比将意味着比女性幸存者的百分比增加更多的生命。这有点类似于你的例子。右边还有一个例子,船员和掌舵人占人数的比例最大,但幸存的概率最低。(值得一提的是,这不是对这些数据的全面分析,因为阶级和性别也与泰坦尼克号无关,但足以说明这个问题的想法。)