可视化离散变量和连续变量之间关系的最佳方法是什么?

机器算法验证 数据可视化 分类数据 随机变量
2022-01-25 13:30:15

显示以下关系的最佳方式是什么:

  • 连续和离散变量,
  • 两个离散变量 ?

到目前为止,我已经使用散点图来查看连续变量之间的关系。然而,在离散变量的情况下,数据点以一定的间隔累积。因此,最佳拟合线可能有偏差。

4个回答

下图:原始图可能具有误导性,因为变量的离散性质使点重叠:

在此处输入图像描述

解决它的一种方法是为数据符号引入一些透明度:

在此处输入图像描述

另一种方法是轻轻移动符号的位置以产生拖影。这种技术称为“抖动”:

在此处输入图像描述

这两种解决方案仍然允许您拟合一条直线来评估线性度。

R代码供您参考:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

我会使用箱线图来显示离散变量和连续变量之间的关系。您可以使用标准统计软件使箱线图垂直或水平,因此很容易将其可视化为 IV 或 DV。可以将散点图与离散变量和连续变量一起使用,只需为离散变量分配一个数字(例如 1 和 2),然后抖动这些值(注意此处的顶部图)。

关于您认为最佳拟合线可能存在偏差的评论,这取决于您拥有什么。例如,如果您有一个具有两个水平的离散变量作为您的 IV,以及一个连续变量作为您的 DV,您可以通过这两种方式画一条线,这不会有偏差。(我们通常会认为这种情况适合 t 检验,但它实际上是一种形式 - 即简单的回归案例,请参阅我的答案here。)另一方面,如果你有一个离散的具有两个级别的变量作为您的 DV,标准(OLS)回归将不合适(将需要逻辑回归)并且最佳拟合线将有偏差,但您可以拟合(并绘制)一条低线作为初始的一部分数据探索。

为了可视化两个离散变量之间的关系,我会使用马赛克图您还可以通过一些编程 使用​​筛图关联图动态压力图。

在考虑二元结果变量和连续预测变量之间的关系时,我会使用黄土平滑器(关闭异常值检测,例如在lowess(x, y, iter=0)R.

在 RHmisc包的下一个版本中,您可以轻松创建单个lattice图形,将此类曲线放入多个预测变量的多面板显示中,例如

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

如果您对简单的散点图不满意,您可能需要在离散变量的每个值处添加数据点的频率。那么如何做到这一点仅取决于您使用的统计程序。这是Stata的示例您也可以将其应用于两个分类变量的散点图。否则,箱形图或叠加条形图可能会很好,但这实际上取决于您希望如何呈现这些变量。