显示以下关系的最佳方式是什么:
- 连续和离散变量,
- 两个离散变量 ?
到目前为止,我已经使用散点图来查看连续变量之间的关系。然而,在离散变量的情况下,数据点以一定的间隔累积。因此,最佳拟合线可能有偏差。
显示以下关系的最佳方式是什么:
到目前为止,我已经使用散点图来查看连续变量之间的关系。然而,在离散变量的情况下,数据点以一定的间隔累积。因此,最佳拟合线可能有偏差。
下图:原始图可能具有误导性,因为变量的离散性质使点重叠:
解决它的一种方法是为数据符号引入一些透明度:
另一种方法是轻轻移动符号的位置以产生拖影。这种技术称为“抖动”:
这两种解决方案仍然允许您拟合一条直线来评估线性度。
R代码供您参考:
x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
我会使用箱线图来显示离散变量和连续变量之间的关系。您可以使用标准统计软件使箱线图垂直或水平,因此很容易将其可视化为 IV 或 DV。可以将散点图与离散变量和连续变量一起使用,只需为离散变量分配一个数字(例如 1 和 2),然后抖动这些值(注意此处的顶部图)。
关于您认为最佳拟合线可能存在偏差的评论,这取决于您拥有什么。例如,如果您有一个具有两个水平的离散变量作为您的 IV,以及一个连续变量作为您的 DV,您可以通过这两种方式画一条线,这不会有偏差。(我们通常会认为这种情况适合 t 检验,但它实际上是一种形式 - 即简单的回归案例,请参阅我的答案here。)另一方面,如果你有一个离散的具有两个级别的变量作为您的 DV,标准(OLS)回归将不合适(将需要逻辑回归)并且最佳拟合线将有偏差,但您可以拟合(并绘制)一条低线作为初始的一部分数据探索。
在考虑二元结果变量和连续预测变量之间的关系时,我会使用黄土平滑器(关闭异常值检测,例如在lowess(x, y, iter=0)
R.
在 RHmisc
包的下一个版本中,您可以轻松创建单个lattice
图形,将此类曲线放入多个预测变量的多面板显示中,例如
summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
如果您对简单的散点图不满意,您可能需要在离散变量的每个值处添加数据点的频率。那么如何做到这一点仅取决于您使用的统计程序。这是Stata的示例。您也可以将其应用于两个分类变量的散点图。否则,箱形图或叠加条形图可能会很好,但这实际上取决于您希望如何呈现这些变量。