在回归中,我应该将这些序数 IV 视为协变量还是因素?

机器算法验证 回归 spss
2022-03-28 12:11:29

我有一个调查问题,其中因变量(序数)采用李克特式量表(即从最满意到最不满意的 1 到 5)和两组自变量。一组有 7 个 IV(几乎相同的尺度,但 1-5 尺度)和一组 5 个 IV,尺度为 1-6,都是序数。请参阅哪个适用,序数或多项回归模型?

分析此类问题的最佳方法是什么?我是否需要将 IV 视为因素或协变量?

1个回答

“因子”和“协变量”之间的区别与预测变量/自变量的性质有关。

因子是一个名义变量,可以采用多个值或水平,每个水平与因变量的不同平均响应相关联。即使因子是用数字编码的,这些数字也没有特别的意义。例如,组“2”的因变量平均值完全有可能低于组“1”和“3”。在幕后,在常规 ANOVA/线性模型中,组可以由一组“虚拟变量”表示,每个组具有不同的系数。

理想情况下,协变量应该是连续的和区间水平的度量,但在任何情况下,这些值都必须是有意义的,因为协变量和结果/因变量之间的关系是定量的。一个简单的线性模型将有一个系数来捕捉这种关系。其他模型(具有交互作用、多项式回归、样条曲线等的模型)会增加一些复杂性,但考虑协变量的大小应该是有意义的。

“因素”是必不可少的,“协变量”可以被忽略的概念源于心理学和其他一些领域的常见研究设计。通常,感兴趣的主要变量将通过实验将其设置为少数几个水平来操纵,而人口统计变量(年龄、个性等)只是在或多或少的连续尺度上测量。因此,“因素”必须明确地出现在分析中,但“协变量”可能会被忽略。实验设计还可以确保不同的因素不相关并且组是平衡的,如果您只是观察/测量变量,则不一定是这种情况。

但是,从数学上讲,无论您将其视为 ANCOVA(其中连续变量称为“协变量”)或多元线性回归(其中连续变量只是预测变量)都没有任何区别(请参阅何时应该使用多元回归使用虚拟编码与 ANCOVA?)。

您还可以设计一项研究,其中主要操作是定量的(想象一下像控制房间温度之类的东西),但辅助措施是二元的(比如性别)。您可能不会将温度称为“协变量”,但它当然不应该用作 ANOVA 中的“因素”或被排除在模型之外。一个变量是“必要的”还是被实验操纵会改变解释,但不一定会改变它在模型中的表现方式。

在您的情况下,将多项李克特量表视为区间度量是否合理可能存在争议,并且还取决于数据的具体情况,但它肯定是非常标准的。它们绝对不是名义上的。