逻辑回归和遗漏变量偏差

机器算法验证 r 回归 物流 马尔可夫链蒙特卡罗 偏见
2022-04-14 10:19:21

我只是想确认我理解正确。因此,如果逻辑回归模型省略了变量偏差,这是否意味着我应该丢弃任何不包括所有重要主效应及其每一个重要相互作用的逻辑回归模型,即使我需要排除一些潜在的重要相互作用项以避免多重共线性或使 MCMC-GLM 算法收敛?

在我的情况下: 1. 我正在为我对三个预测变量的二元响应拟合一个逻辑回归模型。当我运行glm(y~(A+B+C)^3)时, R它似乎对此没有任何问题。但是,当我尝试MCMClogit(y~(A+B+C)^3)对逻辑回归模型进行贝叶斯功效分析时,R告诉我该算法不收敛。MCMClogit算法无法处理涉及完全交互的模型,这意味着贝叶斯方法会受到遗漏变量偏差的影响。2. 因为我对逻辑回归中的遗漏变量偏差非常谨慎,所以我在逻辑回归模型中添加了一些交互项,这些交互项认为对响应有显着影响。这会导致多重共线性,从而使 p 值变得不可靠。

这是否意味着我应该放弃这种进行功率分析的贝叶斯方法?遗漏变量偏差是否意味着我应该包括每一个重要的交互,即使它会导致多重共线性?

1个回答

在实践中,逻辑回归中的遗漏变量偏差问题可能与普通最小二乘法 (OLS) 中面临的问题没有太大区别。逻辑回归中的附加问题是,与 OLS 不同,省略与结果相关但与包含的预测变量不相关的预测变量会导致包含的预测变量的系数估计存在偏差。

这个问题的一个重点是该原则应如何告知在逻辑模型中包含交互项。尽管可以转换 2 个变量以使其交互作用或乘积与它们中的任何一个都不相关,但这在实践中并不总是这样做,而且似乎对于所有交互作用的集合都没有完成,直到 3 阶为止此问题中的示例。*因此,如果交互项与包含的预测变量相关,则当 OLS 中省略交互项时,仍然可能存在遗漏变量偏差。在这个程度上,交互项和遗漏变量偏差的问题在 OLS 和逻辑回归之间不一定不同。

此外,逻辑回归中的偏差倾向于保守方向:省略与结果相关但与包含的预测变量不相关的预测变量会导致系数估计偏向 0。根据建模的目的,这可能是可接受的权衡。

多重共线性不一定会导致模型不可靠。是的,个别系数估计值可能存在较大的标准误差。但正如这个答案所说:

最后,考虑多重共线性的实际影响。它不会改变模型的预测能力(至少在训练数据上),但它确实会影响我们的系数估计。在大多数机器学习应用程序中,我们并不关心系数本身,只关心模型预测的丢失......

预测同时考虑了系数估计(包括交互系数)和系数协方差矩阵,提供了优于仅查看单个系数的标准误差的预测精度。

我对这个问题中提到的贝叶斯方法没有经验,也不能说为什么它没有收敛。但是关于在逻辑回归中包含交互项,在实践中应用的原则与 OLS 的原则不一定有很大不同。领域知识应该是主要指南。然后应用统计分析的标准艺术,选择适合可用数据的模型复杂性。


*我不清楚预测变量是否总是可以转换为使其所有 3 向交互与单个预测变量不相关。