Logistic 回归中的偏移量:典型的用例是什么?

机器算法验证 回归 物流 抵消
2022-04-05 07:39:06

偏移量通常用于泊松回归以考虑不同的曝光(例如不同的时间段):offset = log of exposure

问题:逻辑回归中偏移的典型用例是什么?

我假设我们不能在分类问题中进行曝光(比例效应),因为 E(y|x) 不能超过 1,所以我很好奇为什么有人需要在逻辑回归中使用偏移量。

4个回答

我有时在逻辑回归模型中使用偏移量。用例是我已经有一个复杂的模型,需要重新估计它以覆盖原始数据样本范围之外的一些新数据(在时间上,或在横截面上),但是由于各种原因,它在整个扩展数据集上重新估计模型实际上是不可行的。目标是一个新模型,它可以对一些样本外数据给出良好的预测,但对样本内数据给出不变的预测。

因此,我从原始模型中获取线性预测变量,将它们指定为偏移量,然后引入旨在拟合新数据的其他变量,这样就不会改变对原始数据的预测。

诚然,这是临时的,但在实践中是一个非常有用的技巧。我不知道逻辑回归中偏移的“合法”用途是什么,但我很高兴统计软件包允许这样做。

当您知道该变量的系数应该是多少时,您会包含一个偏移量。通常软件会统一修复它。正如您在泊松回归中指出的那样,当我们假设如果我们将分母乘以一个因子,我们也会将结果乘以相同的因子时,这通常用于包括分母的影响。

可以在泊松特例之外使用偏移量的一种情况是,当您从先前研究的理论中获得系数的假设值时。然后,如果您将预测变量包含在回归中乘以理论值并作为偏移量,这将具有将其包含在系数的理论值中的效果。如果您还将预测变量作为标准回归变量包括在内,您将从针对零测试其系数中看到偏移量是否足够(因此支持理论值)或者您是否可以拒绝它。

当模型基于过采样数据时,offset用于校正偏差。另一种方法是使用weights参数。但是请注意,offset通过更改截距会产生正确的概率,通常是基于判断的覆盖。另一方面,weights通过抵消过采样的影响来产生正确的参数估计,就好像模型是基于正确采样的数据一样。

逻辑回归中的偏移量有多种用途,无论是针对特定因素还是其他模型的输出。对于具体的因素,它们可能被包括或排除在最终实施中。包括,如果目标是在最终模型中修复它们,是否强制假设(基于过去的经验)或限制影响。排除,如果目标是控制这些因素{成熟度效应,不同的影响}。
对于模型输出,它们可以是 i) 完整开发过程的一部分,以分组变量;ii) 在不影响原始模型的情况下将新数据源合并到新样本中;iii) 在实施前或实施后验证模型的排名能力。