具有不同链接函数的序数逻辑回归

机器算法验证 回归 序数数据 有序的logit
2022-04-06 10:10:03

考虑一个结果变量,它有四个清晰、有序的类别。这似乎很好地使用了序数逻辑回归来估计协变量对将主题向上移动“一步”的影响的优势比。

但是主题在各个类别中分布得特别均匀,因此出现了一个问题:

  • 在序数逻辑回归中,用于近似相对风险的 OR 的“罕见结果假设”是否仍然正确?
  • 如果是这样,是否可以更改链接函数以直接估计相对风险,并且在这种情况下是否仍然可以使用具有稳健标准误差的泊松近似来处理收敛问题?
2个回答

我认为我们首先要问是否有必要使用比例优势逻辑回归来近似累积相对风险,例如报告更高结果的相对风险。比例优势模型的概率公式依赖于观察潜在逻辑随机变量的任意箱。在这里查看我的相关问题这种方法的优点在于逻辑 RV 的生存函数 (1-CDF) 是逆 logit,例如P(Z>z)=exp(z)/(1+exp(z))

如果我们假设一个相对风险模型的类似概率推导,我们希望找到一个潜在随机变量,其生存函数为但这只是一个指数随机变量,它是无记忆的。因此,如果我们构建阈值结果变量矩阵,(我相信)细胞频率是条件独立的,因此可以通过以下方式建模一个对数线性模型,它只是泊松回归。这是令人放心的,因为泊松系数的解释是相对比率。将响应变量之间的交互建模为数字结果和回归系数会导致正确的解释。P(Z>z)=exp(z)Oij=I(Yij)

也就是说,拟合对数线性模型:

log(Nij|Yi,Xi,)=η0I(Yi=0)++ηjI(Yi==j)+βXi,+γdiag(Y)Xi,

使用 MASS 包中的示例:我们看到在所有情况下相对风险远小于 OR 的预期效果:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

给我们:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

其中前 4 列来自对数线性模型的推断,后 3 列来自比例优势模型。

这也许回答了最重要的问题:如何适应这样的模型。我认为它可用于探索 OR 对 RR 的罕见事件的相对近似值。

让我们分别解决您的两个问题:

在序数逻辑回归中,用于近似相对风险的 OR 的“罕见结果假设”是否仍然正确?

并不真地。你自己说过,你的结果均匀分布在四个类别中,所以没有一个类别会特别罕见。

如果是这样,是否可以更改链接函数以直接估计相对风险,并且在这种情况下是否仍然可以使用具有稳健标准误差的泊松近似来处理收敛问题?

可以,但存在风险,当您使用模型进行预测时,预测的属于某个类别的概率可能大于 1。

制定标准有序logit模型

Yicategorical(pi);logit(pi)=Xβ
连同比例优势假设。我们所做的只是用“log”替换“logit”,这仍然会产生一个有效的模型,该模型具有有效的可能性,可以产生有效的估计β. 但是,当您将这些应用于实际数据时,可能会出现一个组件pi不止一个(并且由于这超出了比例赔率假设的范围,因此您不能使用它来填充剩余的组件)。

如果您只使用您的模型来预测它所训练的数据,则不会发生这种情况,并且不太可能发生

  • 你有很多训练数据
  • 您的训练数据涵盖协变量的所有可能组合(如果它们是分类的)或协变量的全部范围(如果它们是数字的)