调查逻辑回归对违反 logit 线性的稳健性

机器算法验证 回归 物流 参考 假设 强大的
2022-03-25 17:11:41

我正在使用二元结果(开始和不开始)进行逻辑回归。我的预测变量组合都是连续变量或二分变量。

使用 Box-Tidwell 方法,我的一个连续预测变量可能违反了 logit 线性的假设。拟合优度统计数据没有表明拟合存在问题。

我随后再次运行回归模型,将原始连续变量替换为:首先,平方根变换,其次,变量的二分版本。

在检查输出时,拟合优度似乎略有提高,但残差变得有问题。参数估计、标准误差和exp(β)保持相对相似。根据我的假设,数据的解释在 3 个模型中没有改变。

因此,就我的结果的有用性和数据解释的意义而言,使用原始连续变量报告回归模型似乎是合适的。

我想知道这个:

  1. 逻辑回归何时对潜在违反 logit 假设的线性具有鲁棒性?
  2. 鉴于我上面的例子,在模型中包含原始连续变量似乎可以接受吗?
  3. 是否有任何参考或指南可以推荐何时可以令人满意地接受该模型对可能违反 logit 线性的稳健性?
1个回答

线性假设在回归中经常被违反,以至于它应该被称为意外而不是假设。与其他回归模型一样,当您错误地假设线性时,逻辑模型对非线性并不稳健。与其使用残差或综合拟合优度检验来检测非线性,不如使用直接检验。例如,使用回归样条扩展连续预测变量并对所有非线性项进行复合检验。最好还是不要测试这些术语而只期望非线性。这种方法比尝试不同的单斜率转换选择(例如平方根、对数等)要好得多,因为在此类分析之后出现的统计推断将是不正确的,因为它没有足够大的分子自由度。

这是 R 中的一个示例。

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests