我应该如何检查逻辑回归分析中连续自变量对 logit 的线性假设?

机器算法验证 回归 物流 假设 样条 回归策略
2022-02-10 02:50:52

我对逻辑回归分析中连续预测变量的对数线性假设感到困惑。在使用单变量逻辑回归分析筛选潜在预测因子时,我们是否需要检查线性关系?

就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分类结果)相关的因素。连续变量包括年龄、Charlson 合并症评分、Barthel 指数评分、握力、GDS 评分、BMI 等。我的第一步是使用简单的逻辑回归筛选显着变量。在对每个连续变量进行简单逻辑回归分析期间,我是否需要检查线性假设?还是我应该在最终的多元逻辑回归模型中检查它?

此外,据我了解,我们需要在将非线性连续变量输入模型之前对其进行转换。我可以对非线性连续变量进行分类而不是转换吗?

4个回答

逻辑回归不假设因变量和自变量之间存在线性关系。它确实假设因变量和自变量的对数几率之间存在线性关系(这主要是连续自变量的问题。)有一个称为 Box-Tidwell 的测试可以用于此。stata 命令是 boxtid。我不知道 SPSS 命令,对不起。

这可能会有所帮助——http: //www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

正如我在我的《回归建模策略》一书中详细描述的(2015-09-04 提供第 2 版,现在提供电子书),在建模之前尝试转换变量的过程充满了问题,其中最重要的问题之一是失真I 类错误和置信区间。分类会导致更严重的问题,尤其是缺乏适合性和随意性。

与其将其视为“检查是否不适合”问题,不如将其视为指定一个很可能适合的模型。做到这一点的一种方法是将参数分配给模型中可能很强大的部分,而对于这些部分,线性尚不知道是一个合理的假设。在此过程中,检查有效样本量(在您的情况下为事件数和非事件数中的最小值),并在数据信息内容允许的范围内允许复杂性(使用例如 15:1 事件:参数规则拇指)。通过预先指定一个灵活的加法参数模型,只有在重要的地方忽略重要的相互作用才会出错。一般来说,交互应该是预先指定的。

您可以通过正式测试(使用 R 包轻松实现)检查模型中是否需要非线性,rms但在不显着时删除这些术语会产生我上面概述的推断失真。

更多详细信息可在链接到https://hbiostat.org/rms的课程笔记中找到

我认为我们应该在回归模型中使用它们之前绘制连续变量并检查线性。如果线性似乎是一个合理的假设,我认为在大多数情况下这可能仍然适用于最终的多变量回归模型,如果不是,我认为这可能主要是由您可以纠正的交互效应引起的。

是的,对非线性连续变量进行分类是一种选择。这样做的问题是,在大多数情况下,类别似乎是任意的,类别之间截止分数的微小差异可能会导致不同的结果(尤其是在统计显着性方面),并且取决于类别的数量和数据的大小,您可能会丢失数据中很多有价值的信息。

另一种方法是使用广义加性模型,该模型是可以指定为逻辑回归的回归模型,但您可以在其中包含非线性自变量作为“平滑函数”。从技术上讲,这在 R 中并不是很复杂,但我不知道其他软件包。这些模型将识别与因变量的非线性关系,但缺点可能是您不会在输出中获得整洁的数字来呈现,而是测试统计显着性的可视曲线。因此,这取决于您对量化非线性变量对结果变量的影响的兴趣程度。

最后,您可以使用如上所述的广义加性模型来测试逻辑回归模型中的线性假设,至少在使用 R 的情况下是这样。

看看这本书(与您和我的领域非常不同,但这根本不重要):http ://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 /ref=sr_1_1?ie=UTF8&qid=1440928328&sr=8-1&keywords=zuur+生态

由于我不知道您的数据,我不知道将这三个变量(基本变量、其自然对数和交互项)结合起来是否会成为问题。但是,我知道过去当我考虑将三个术语结合起来时,我经常会在概念上迷失我所测量的内容。您需要很好地处理您正在测量的内容,否则您将难以解释您的发现。希望有帮助!