序数回归:比例优势假设

机器算法验证 回归 分类数据 序数数据 有序的logit
2022-03-31 13:45:09

我正在分析调查结果,其中大多数回复以李克特量表的形式出现。其中许多量表在底部类别中的响应非常少或为 0。可以想象,当我尝试运行我的模型时,这会导致一些复杂性。我仍然得到令人鼓舞的结果,但想在报告之前确保我的信息是有效的。以下是我过去几天一直在使用的场景:

我正在使用 SPSS 运行带有两个预测变量的序数回归。在这种情况下,预测变量本身实际上是李克特量表上的响应(但作为名义变量输入模型)。当然,我的 DV 也是一个顺序量表。我的两个预测变量各有五个类别(量表级别)。我的因变量也有 5 个级别。就像我的预测变量一样,因变量在底部类别中的观察值非常少。事实上,当我运行回归时,它显示 47.5% 的单元格的频率为 0。但我所有的系数都很显着,整体模型拟合(-2 对数似然)在 0.000 时显着,优势比(指数形式我的系数)似乎都是合理的。除了这些频率为 0 的单元之外,该模型看起来还不错。

我的测试未通过比例优势假设,即每个预测变量类别的系数在所有 DV 水平上必须相等。我知道这一点是基于平行线测试的结果,SPSS 将其报告为序数回归输出的一部分。所以,根据我在网上找到的一篇文章的推荐,我做了两件事来进一步探索。首先,我运行了单独的物流带有新因变量的回归,每个变量都代表我原始 DV 中的一个切点——换句话说,它们表明 Y 是否小于我的每个原始 DV 类别(不包括底部的类别)。所以我的新DV是2级或以上而不是;3级或以上与否;等等。对于大多数 IV-DV 组合(细胞),这些并没有产生显着的关系。这个想法是比较不同切点的优势比,看看它们是否相当恒定。就我而言,因为很少有重要的,所以它们不是。

我做的第二件事是使用我的原始因变量估计单独的序数回归——我为我的预测变量中的每个类别做了一个模型,编码为假人。因此,在 10 个单独的模型中(2 个预测变量,每个模型 5 个类别),我的单个预测变量将是:1 代表级别 2,0 代表所有其他级别;或 1 表示 3 级,0 表示所有其他级别;等等。对于这些类别中的大多数,平行线是失败的(即,支持比例赔率假设的零被证明是正确的——一件好事)。然而,在其中几个类别中,我没有观察到(没有人在我的预测李克特量表中回答非常差或差)。因此,我无法获得这些类别的平行线 P 值。

我的问题有两个部分

一个是预测变量的底层是否导致平行线测试失败……如果原因是在这些类别中没有观察到,我是否仍然可以使用我的完整模型中的整体奇数比。我认为这应该没问题,因为这些类别会自动退出模型。

第二个问题是,是否可能是我的 DV 底层的低频/0 频率导致平行线测试失败。我不认为这是基于对所有具有观察值的预测变量类别都通过了测试的事实。我尝试结合我的 DV 的底部类别,这减少了频率为 0 的单元格的百分比,但并不能完全消除问题。

非常感谢您花时间考虑我的问题。如果您能提供任何指导,我将不胜感激。

1个回答

首先,您的两个自变量是否被调整为因子或数字编码响应,并且两者是否存在交互项?我问的原因是因为比例优势的测试对小细胞计数变得非常敏感。出于这个原因,我经常发现将输入变量调整为它们的顺序编码值是合理的(1:差,2:公平到差等)。这样做允许跨组借用信息,评估比例性,以便比较预测变量中相差 1 的单位的更有利响应的几率的相关差异与更有利的响应的几率一致(粗略和人为的解释比例优势检验)。

如果您的数字编码仍然无法给出有效的比例,则可以通过折叠相邻类别(如两个底部框响应)来获得一致的累积优势比估计值。

第三,序数响应与两个序数因素之间关联的另一个有力检验是一个普通的旧线性回归模型。使用稳健的标准误差,尽管存在误差分布,您仍可以获得有效的置信区间。这往往不如分类方法强大,但由于零细胞计数,陷阱更少。

最后,作为评论,稳健的标准误差允许在大多数情况下对平均模型进行一致的估计。我不确定这些是否在 SPSS 中实现,但 R 和 SAS 经常使用这些。与 Cox 模型中的比例风险假设一样,当这种“基于模型的假设检查”失败时,并不意味着模型结果完全无效,只是效应估计值在其不一致的比例上被“平均”了。例如,如果比例优势模型中有过多的受访者给出顶盒响应,并且预测变量显示顶盒响应的关联很大,但与其他累积度量的关联较小,那么您会发现累积优势比是加权的几个阈值优势比的组合,