SPSS或R中线性多元回归的序数预测因子

机器算法验证 多重回归 序数数据
2022-03-10 18:07:59

我想包括疾病的个体症状,以预测几周后疾病总分的缓解(总分 = 度量变量)。

个别症状被编码为 0、1、2 和 3。它们根本不是正态分布的,其中一些非常偏斜(例如 80% 有 0 或 70% 有 3)。因此,我想将它们视为序数。

有没有办法在 SPSS 中做到这一点?虚拟编码意味着名义上的,而不是有序的,并且只是将它们作为预测变量输入,就像它们一样让我想知道 SPSS 是否将它们视为度量。

如果没有,有没有办法在 R 中做到这一点?我是 R 新手,所以......不太了解它。

谢谢

2个回答

您有两个选项可以将此变量包含在回归中:

  1. 只需按原样使用变量,没有虚拟变量编码。人们总是用 5 点李克特量表来做这件事。此方法假定从 0 移动到 1 与从 1 移动到 2 和从 2 移动到 3 具有相同的效果。您可能不想做出这个假设。

  2. 使用as.factor函数 inR将变量编码为相对于基本情况 (0) 的三个虚拟变量。您不再需要假设增加一级的边际效应是恒定的。

您的序数变量中的级别越多,选项 1 比选项 2 更受青睐 - 在某些时候,您拥有的虚拟变量比您想要处理和解释的要多。

我不认为有一种方法可以“强制”一个自变量为序数。

第三种选择是使用(2)中的虚拟编码,但要惩罚相邻类别系数的差异:

http://cran.r-project.org/web/packages/ordPens/ordPens.pdf