在逻辑回归(或其他形式的回归)中测试非线性

机器算法验证 回归 物流 参考 假设 回归策略
2022-02-26 18:43:23

逻辑回归的假设之一是 logit 的线性。因此,一旦我的模型启动并运行,我就会使用 Box-Tidwell 测试来测试非线性。我的一个连续预测变量 (X) 的非线性测试结果为阳性。我下一步该做什么?

由于这违反了假设,我应该去掉预测变量 (X) 还是包括非线性变换 (X*X)。或者将变量转换为分类?如果你有参考,你也可以指点我吗?

3个回答

我建议使用受限三次样条(rcs在 R 中,请参阅HmiscDesign包以获取使用示例),而不是在模型例如,这种方法是 Frank Harrell 推荐的方法,您会在他关于回归建模策略的讲义(第 2.5 节和第 9 章)中找到一个很好的说明(参见配套网站)。X

您可以使用车载包装boxTidwell()中的将结果与您的 Box-Tidwell 测试进行比较。

将连续预测变量转换为分类预测变量通常不是一个好主意,请参阅例如Problems Caused by Categorizing Continuous Variables

包括x的非线性变换可能是合适的,可能不仅仅是x × x,即 x 2我相信您可能会发现这是确定使用哪种转换的有用参考:

GEP Box 和 Paul W. Tidwell (1962)。自变量的变换。技术计量学第 4 卷第 4 期,第 531-550 页http://www.jstor.org/stable/1266288

一些人认为 Box-Tidwell 转换系列比通常适用于可解释性和简约性更普遍。Patrick Royston 和 Doug Altman在 1994 年的一篇有影响力的论文中介绍了具有简单有理幂的 Box-Tidwell 变换的分数多项式:

P.罗伊斯顿和 DG 奥特曼 (1994)。使用连续协变量的分数多项式进行回归:简约参数建模。应用统计第 43 卷:第 429-467 页。http://www.jstor.org/stable/2986270

尤其是帕特里克·罗伊斯顿,他继续研究并发表了这方面的论文和软件,最终与 Willi Sauerbrei 合写了一本书:

P. Royston 和 W. Sauerbrei (2008)。多变量模型构建:基于分数多项式建模连续变量的回归分析的实用方法英国奇切斯特:威利。国际标准书号 978-0-470-02842-1

不要忘记检查 X 和其他自变量之间的交互作用。不建模交互可以使 X 看起来像具有非线性效应,而它只是具有非加性效应。