将序数变量视为回归问题的连续变量

机器算法验证 回归 分类数据 序数数据 李克特 回归策略
2022-03-01 22:44:43

在我遇到的社会科学中,将序数变量视为连续变量是很常见的,例如源自评级或李克特量表的变量(非常不同意、不同意、同意、非常同意)。

例如,该主题已在 2010 年的这篇文章中讨论过: 在什么情况下李克特量表应用作序数或区间数据?

我正在寻找更正式的比较/评估,尤其是在回归建模的背景下。Rhemtulla 等人。(2012)研究了将序数变量视为连续变量的性能,并为结构方程模型 (SEM) 提出了建议。我对 SEM 不是很熟悉,所以我不确定他们的结果是否也适用于回归问题。

有人知道回归背景下的类似研究/文献吗?

编辑: 只是为了回答下面的问题:我主要对结果变量是序数(可能是序数协变量)的情况感兴趣。

4个回答

正如 Nick Cox 所指出的,区分 iV 和 dV 很重要。就 dV 而言,为什么不使用序数回归模型,正如 Agresti 所讨论的那样:http: //eu.wiley.com/WileyCDA/WileyTitle/productCd-0470082895.html

我不太确定 iV 案。标准可能会使用虚拟编码。我想这就是弗兰克哈雷尔的意思。也许 Agresti 也讨论过这个问题。

如果时间充裕,我们会像使用名义预测变量一样使用虚拟变量,然后对它们进行惩罚(惩罚 MLE),使其趋于有序。几年前,Hans van Houwelingen 在一篇论文中讨论了类似的问题。除此之外,我们通常通过拟合二次效应来近似序数变量的影响。使用 AIC 在常规名义虚拟变量模型和假设序数预测变量是连续的(如二次)的受限模型之间进行选择也不是荒谬的。

我不确定 SEM 结果是否适用,但它们可能会适用。

我有一个资料来源,Snijders 和 Bosker (2012) 的多层次分析书,第 310 页,说:

“如果类别的数量很少(3 或 4),或者介于 5 到 10 之间,并且分布不能很好地近似为正态分布,那么有序分类结果的统计方法可能很有用”

我的理解是,如果你有至少 10 个类别和近似正态分布的因变量,将其视为连续变量是安全的。对于更具体的答案,我将进行小规模模拟分析。

如果结果是有序的,则应该需要一种分析方法,该方法对用于标记级别的代码是不变的。例如,假设结果具有以下级别:SD、D、N、A 和 SA。然后可以用代码 1、2、3、4、5 标记水平。如果用 t 检验分析这一结果,则 p 值仅对位置或规模变化是不变的。例如,-2、-1、0、1、2 或 -4、-2、0、2、4。来自 t 检验的 p 值对于 -10、-1、0 等其他编码并非不变, 1, 100 或任何不保留“距离”的编码。比例优势模型和多项模型给出了对编码选择不变的 p 值。[也许这点之前已经提出了?]