具有二项式响应的逻辑回归结果的预测区间

机器算法验证 物流 二项分布 预测区间
2022-03-13 09:01:15

假设我们有一个逻辑回归模型:

P(y=1|x)=plog(p1p)=βx

给定一个大小为N的随机样本D=\{\mathbf{X},\mathbf{y}\},我们可以计算\boldsymbol{\beta}的置信区间和相应的p的预测区间,给定一个特定的值\预测向量的mathbf{x}^*这都是非常标准和详细的,例如,hereD={X,y}Nβpx

假设我对y的预测区间感兴趣,给定x当然,计算y的单个实现的预测区间根本没有任何意义,因为y只能取值 0 和 1,而两者之间没有值。然而,如果我们考虑对于\mathbf{x}^*的相同固定值的 y的m个实现,那么这将变得类似于(但不相同)计算二项式随机变量的预测区间的问题。这与 Glen_b 在对此答案的评论中描述的情况基本相同yymyx. 除了简单的“使用非参数引导程序”之外,这个问题是否有答案?

1个回答

这应该在没有引导的情况下工作的一种方法(这在实践中可能是最快的实现方式),将是:

  1. 假设预测对数赔率 ( ) 加上/减去其标准误差的正常近似值有效。任何逻辑回归软件都将提供此功能。xβ^
  2. 该分布的百分位数通过反逻辑转换为概率。
  3. 人们可以找到一个(混合的)beta 分布,它可以很好地逼近概率的预测分布。
  4. 然后,结果的预测分布是(混合的)β-二项分布(具有与步骤 3 中使用的相同的混合权重)。

或者,可以“只是”从联合预测结果和对数赔率中整合出对数赔率,但我相信这将是一团糟,没有封闭形式的解决方案。