我没有通过谷歌搜索找到太多关于此的信息,所以我想也许有人对我有一些答案。
当涉及到二元逻辑回归时,模型假设对数优势比与自变量具有线性关系。我想知道,如果这个假设没有得到满足,模型会发生什么,此外,如何解决这个问题来解决它?
我没有通过谷歌搜索找到太多关于此的信息,所以我想也许有人对我有一些答案。
当涉及到二元逻辑回归时,模型假设对数优势比与自变量具有线性关系。我想知道,如果这个假设没有得到满足,模型会发生什么,此外,如何解决这个问题来解决它?
你会得到有偏差和不一致的系数估计,以及有偏差的标准误差。标准误差的偏差可能是双向的,并且 I 类和 II 类错误的概率可能会增加。
您可以通过引入与 Y 具有非线性关系的预测变量的不同函数形式来解决非线性问题。常见的函数形式是二次、对数、三次、平方根等。您还可以考虑包括样条曲线以及两个或多个预测变量之间的可能交互。最后一种可能性是对二元关系使用不同的链接函数,因为诸如 probit 和 clog-log 之类的函数的形状略有不同,尽管它们都遵循合节形状。
如果暴露和平均反应之间的函数关系不是 S 形逻辑曲线,我们仍然有理由将 S 形逻辑曲线视为这些数据的有意义的总结。
例如,我们可能从模型中省略了一个预后因素,这意味着暴露与结果之间的真正边际关系不是逻辑关系,而是一个复杂的半逻辑函数,它在多个条件逻辑曲线上平均风险。这是逻辑回归中不可折叠的原则。
基本上,我们很少能确定 S 形物流趋势实际上是“正确的”趋势……但它是有用的!所有模型都是错误的,有些模型是有用的。
Kenji 是对的,当我们试图逼近S 形趋势并且数据显示强烈的分布违规时,可能需要考虑一些敏感性分析,例如测试高阶多项式效应。要考虑的另一种测试类型是断点,调整“结”,以便趋势可以改变方向。这些方法在样条中混合,并通过使用 LOESS 曲线来探索暴露和结果之间的一般非线性关系,使其更加通用。
尽管如此,您可能会回到最初的问题:您可能会说“我想使用单个逻辑曲线来总结这些数据,该曲线的截距代表暴露 = 0 的结果的对数几率,其斜率是作为衡量标准的对数几率比暴露与结果之间的关联。” 然后希望获得一个稳健的误差估计,即公正和一致。然后采用 S 曲线来总结数据中的一阶趋势,您可以将其视为经验法则:随着风险的增加,风险会增加还是减少,增加多少?为此,您只需应用基于三明治的标准误差。这可以使用具有工作独立协方差结构、逻辑链接和二项式方差结构的广义估计方程来完成。
您的目标概率可以建模为由您的输入缩放的对数优势比的线性组合的假设等效于假设它是伯努利证据的独立片段的组合。如果不是这种情况,您通常会使用交叉项构建更复杂的模型。
将逻辑函数视为一些任意的 sigmoid 链接函数确实隐藏了您所做的假设。