在逻辑回归中可视化类别的影响及其流行度的最佳方法是什么?

机器算法验证 物流 数据可视化 民意调查
2022-03-21 18:43:07

我需要使用民意调查数据提供有关候选人投票的主要预测因素的信息。我已经使用我关心的所有变量进行了逻辑回归,但我找不到呈现这些信息的好方法。

我的客户不仅关心效果的大小,还关心效果大小与具有此类属性的人口大小之间的相互作用。

我如何在图表中处理它?有什么建议么?

这是一个例子:

当因变量为 Vote/Not 在候选人中时,变量 SEX (Male=1)的为 2.3,这是一个很大的数字,经过取幂并被视为优势比或概率。然而,进行这项调查的社会只有 30% 的男性。因此,尽管人们非常支持这位候选人,但他们的人数对于试图赢得多数选举的候选人来说微不足道。β

2个回答

我同意@PeterFlom 的观点,这个例子很奇怪,但抛开这一点,我注意到解释变量是分类的。如果这始终是正确的,它会大大简化这一点。我会使用马赛克图来呈现这些效果。马赛克图垂直显示条件比例,但每个类别的宽度相对于样本中的边缘(即无条件)比例进行缩放。

以下是使用 R 创建的泰坦尼克号灾难数据示例:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

在此处输入图像描述

在左边,我们看到女性更有可能存活下来,但男性可能占船上人员的 80% 左右。因此,增加男性幸存者的百分比将意味着比女性幸存者的百分比增加更多的生命。这有点类似于你的例子。右边还有一个例子,船员和掌舵人占人数的比例最大,但幸存的概率最低。(值得一提的是,这不是对这些数据的全面分析,因为阶级和性别也与泰坦尼克号无关,但足以说明这个问题的想法。)

我有点好奇什么社会只有 10% 的男人……但是……

您可以做的一件事是绘制优势比并用样本大小标记每个。

如果您希望以图形方式表示两个变量,您可以制作一个气泡图,其中每个气泡在 y 轴上的位置与优势比的大小相匹配,并且气泡的面积与样本大小成正比。