在分析具有 3 个预测变量的案例时制作箱线图?

机器算法验证 方差分析 数据可视化 箱形图
2022-03-21 12:15:41

当需要考虑 3 个预测变量时,正确的程序是什么?

我们是为所有可能的 2 个组合制作箱线图,还是有办法比较 3 个变量?

对不起,如果这是一个基本问题。

响应是铀响应,有 3 个预测变量:时间、温度和酸强度。所有 3 个预测变量都有 3 个级别,低、中、高。我想尝试对数据集进行 3 向 ANOVA 分析,这是一个课程的练习题,但不太确定如何开始,所以我使用箱线图首先查看数据的外观。

3个回答

感谢您的澄清。您可以利用镶板和聚类设计,将紧凑的箱线图放在一起,如下所示:

在此处输入图像描述

箱线图可用于评估分组分布和异常值。但是,由于它是方差分析,我还建议使用误差图可视化平均值和 95% CI:

在此处输入图像描述

通过跨面板和跨集群比较和对比每个均值和 CI 的位置,人们可能会更深入地了解组均值之间的交互会是什么样子。

仅从两个变量(铀与温度、铀与时间等)开始,然后从那里开始。如果您的课程尚未涵盖互动,那么我建议您询问讲师他/她是否允许您进行实验。

所以我知道你的 DV 是数字的,你的 3 个 IV 是分类的(3 个级别)。箱线图是一个不错的选择。您将有 9 个箱线图,每个 IV 有 3 个。

分别绘制每个 IV。y 轴上始终是 DV(铀)。在 x 轴上将是 IV。例如,温度低、温度中、温度高。对所有 3 个 IV 执行此操作。

如果您想查看 IV 之间的相互作用,绘图会更加复杂(您的分析也会如此)。没有简单的方法。在查看 2 个 IV 时,您只需将数据分成 6 个,在同时查看所有 3 个时将数据分成 9 个,并为每个 IV 制作箱线图。我不建议你这样做。鉴于您的技能水平并且因为它是针对一个班级的,一次看一个 IV 可能就足够了。

这是 '9x boxplot' 方法R

### make reproducible
set.seed(1)
pred1 <- factor(c("low", "med", "high"), levels=c("low", "med", "high"))
df1 <- data.frame(ur=10*abs(runif(100)),
                  time=sample(pred1, 100, replace=TRUE),
                  temp=sample(pred1, 100, replace=TRUE),
                  str=sample(pred1, 100, replace=TRUE)
                  )
library(ggplot2)
g1 <- ggplot(data=df1, aes(y=ur, x=time, fill=time))
g1 + geom_boxplot() +
 facet_grid(facets = str ~ temp, scale="free_y", labeller=label_both)

给予:

9x 箱线图

(注意 y 轴刻度每行不同)。