Logistic 回归 - 误差项及其分布

机器算法验证 物流 二项分布 伯努利分布 物流配送
2022-01-23 06:37:24

关于逻辑回归(及其假设分布)中是否存在误差项,我在各个地方读到:

  1. 不存在错误项
  2. 误差项具有二项分布(根据响应变量的分布)
  3. 误差项具有逻辑分布

有人可以澄清一下吗?

4个回答

在线性回归中,假设观测遵循高斯分布,其平均参数取决于预测值。如果你从观察中减去平均值,你会得到错误:平均值为零的高斯分布,并且与预测值无关——即任何一组预测值的误差都遵循相同的分布。

在逻辑回归观察遵循伯努利分布,其平均参数(概率)取决于预测变量值。因此,对于任何确定平均的给定预测值,只有两个可能的错误:以概率 pi 发生,&以概率发生。对于其他预测变量值,错误将是发生概率为,&发生概率为y{0,1}π1ππ0π1π1ππ0π1π. 所以没有独立于预测值的常见误差分布,这就是为什么人们说“不存在误差项”(1)。

“误差项具有二项式分布”(2)只是草率-“高斯模型具有高斯误差,因此二项式模型具有二项式误差”。(或者,正如@whuber 指出的那样,它可以被理解为“观察值与其期望值之间的差异具有由期望值转换的二项分布”。)

“误差项具有逻辑分布”(3) 源于从模型中推导逻辑回归,在该模型中,您观察逻辑分布后具有错误的潜在变量是否超过某个阈值。所以这与上面定义的错误不同。(在这种情况下说 IMO 似乎很奇怪,或者没有明确引用潜在变量。)

† 如果您有个具有相同预测变量值的观测值,每个观测值都给出相同的概率,那么它们的总和遵循概率和 no 的二项式分布。试验将 \ sum视为错误会得出相同的结论。kπyπkykπ

这在之前已经介绍过了。中具有预测值的模型不可能具有使预测超出的附加误差项。想一想二元逻辑模型的最简单示例——仅包含截距的模型。这相当于伯努利单样本问题,通常称为(在这种简单情况下)二项式问题,因为(1)所有信息都包含在样本大小和事件数量中,或者(2)伯努利分布是一种特殊情况的二项式分布这种情况下的原始数据是一系列二进制值,每个值都有一个未知参数[0,1][0,1]n=1θ表示事件发生的概率。伯努利分布中没有误差项,只有一个未知的概率。逻辑模型是概率模型。

对我来说,逻辑、线性、泊松回归等的统一一直是在广义线性模型框架中的均值和方差的规范方面。我们首先为我们的数据指定一个概率分布,为连续数据指定一个正态分布,为二分法指定伯努利,为计数指定泊松等……然后我们指定一个链接函数来描述平均值与线性预测变量的关系:

g(μi)=α+xiTβ

对于线性回归,g(μi)=μi

对于逻辑回归,g(μi)=log(μi1μi)

对于泊松回归,g(μi)=log(μi)

在编写错误术语时,唯一可以考虑的就是声明:

yi=g1(α+xiTβ)+ei其中例如,对于逻辑回归,但是,您不能明确声明具有上述伯努利分布。E(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

但是请注意,基本的广义线性模型仅假设分布的均值和方差的结构。可以证明,估计方程和 Hessian 矩阵仅取决于您在模型中假设的均值和方差。所以你不一定需要关心这个模型的分布,因为高阶矩在模型参数的估计中不起作用。ei

  1. 不存在错误。我们正在模拟平均值!平均值只是一个真实的数字。
  2. 这对我来说没有意义。
  3. 将响应变量视为潜在变量。如果您假设误差项是正态分布的,则该模型将成为概率模型。如果您假设误差项的分布是逻辑的,那么模型就是逻辑回归。