如何将序数分类变量作为自变量处理

机器算法验证 回归 物流 序数数据 预测器
2022-01-27 10:20:29

我正在使用 logit 模型。我的因变量是二进制的。但是,我有一个自变量,它是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor. 因此,它是有序的(“定量分类”)。我不确定如何在模型中处理这个问题。我正在使用gretl.

[@ttnphns 的注释:虽然问题说模型是 logit(因为依赖是分类的),但关键问题 - 序数变量 - 基本上是相似的,是依赖分类或定量。因此,这个问题也与线性回归同样相关——就像逻辑回归或其他 logit 模型一样。]

3个回答

序数变量的问题在于,由于根据定义,其级别之间的真实度量间隔是未知的,因此除了伞形“单调”之外,没有适当的类型关系可以被假定为先验。我们必须对此做一些事情,例如 - “筛选或组合变体”或“更喜欢最大化某物的东西”。

如果您坚持将您的李克特评级 IV 视为序数(而不是间隔或名义),我为您提供了一对替代方案。

  1. 使用多项式对比,即模型中使用的每个此类预测器不仅以线性方式输入,而且以二次和三次方式输入。因此,不仅可以捕获线性,而且可以捕获更一般的单调效应(线性效应对应于保持为比例/间隔的预测变量,而其他两个效应将其视为具有不等间隔)。此外,还可以输入每个预测变量的虚拟变量,这将测试名义/因子效应。最后,你知道你的预测变量在多大程度上是因子,有多少是线性协变量,有多少是非线性协变量。这个选项在几乎任何回归(线性、逻辑、其他广义线性模型)中都很容易做到。它将消耗df s,因此样本量应该足够大。
  2. 使用最佳缩放回归。这种方法将序数预测变量单调地转换为区间一,以最大化对预测变量的线性影响。CATREG(分类回归)是这个想法在 SPSS 中的一个实现。您的具体案例的一个问题是您想做逻辑回归,而不是线性回归,但 CATREG 不是基于 logit 模型的。我认为这个障碍相对较小,因为您的 predictand 只是 2 类(二元):我的意思是您可能仍会进行 CATREG 以获得最佳缩放,然后使用优化的变换比例预测器进行最终逻辑回归。
  3. 另请注意,在一个规模或序数 DV 和一个序数 IV Jonckheere-Terpstra测试的简单情况下,可能是合理的分析而不是回归。

也可能有其他建议。以上三个是我立即阅读您的问题时想到的。

让我推荐你也访问这些线程:Associating betweennominal and scale or orordinal ; ordinal 和 scale 之间的关联尽管它们不是专门的回归,但它们可能会有所帮助。

但是这些线程是关于回归的,尤其是逻辑回归:你必须往里看:

只是添加到其他出色的答案:处理它的现代方法可以通过加法模型,通过样条表示序数自变量。如果您非常确定变量的效果是单调的,则可以限制为单调样条。(有关使用单调样条的示例,请参阅寻找适合 sigmoid 曲线的函数)。

在 R 中,如果您将序数预测器设为“有序因子”(例如使用 code ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ),那么在线性模型中,它将通过正交多项式表示。

你需要虚拟变量,但你需要ķ-1虚拟变量,其中ķ是潜在响应的数量。在您有 5 个响应值 (1-5) 的情况下,您将创建 4 个虚拟变量。当响应为“5”时,您的四个虚拟变量将全为 0。有道理?