逻辑回归是否有独立同分布假设?

机器算法验证 回归 物流 假设 独立同居
2022-02-02 23:23:20

逻辑回归的响应变量是否存在独立同分布假设?

例如,假设我们有1000数据点。好像是回复Yi来自伯努利分布pi=logit1(β0+β1xi). 因此,我们应该有1000具有不同参数的伯努利分布p.

因此,它们是“独立的”,但不是“相同的”。

我对吗?


PS。我从“机器学习”文献中学习了逻辑回归,我们在其中优化目标函数并检查它是否适合测试数据,而没有过多谈论假设。

我的问题始于这篇文章了解广义线性模型中的链接函数,我在其中尝试了解有关统计假设的更多信息。

2个回答

从您之前的问题中,您了解到 GLM 是用概率分布、线性预测器来描述的η和链接功能g并被描述为

η=XβE(Y|X)=μ=g1(η)

在哪里g是一个 logit 链接函数,并且Y假设服从伯努利分布

YiB(μi)

每个Yi遵循伯努利分布,具有自己的均值 μi这是有条件的X. 我们假设每个Yi来自相同的分布,具有相同的均值(这将是仅截距模型Yi=g1(μ)),但他们都有不同的手段。我们假设Yi独立的,即我们不必担心诸如后续之间的自相关之类的事情。Yi价值观等

iid假设与线性回归(即高斯 GLM)中的误差有关,其中模型

yi=β0+β1xi+εi=μi+εi

在哪里εiN(0,σ2),所以我们周围有iid噪音μi. 这就是为什么对残差诊断感兴趣并注意残差与拟合的原因。现在,在 GLM 之类的逻辑回归的情况下,它并不那么简单,因为没有像高斯模型那样的加性噪声​​项(参见此处此处此处)。我们仍然希望残差在零附近是“随机的”,并且我们不希望看到它们的任何趋势,因为它们表明模型中没有考虑到一些影响,但我们不假设它们是正常和/或iid另请参阅关于 iid 假设在统计学习线程中的重要性。

作为旁注,请注意我们甚至可以放弃每个假设Yi来自同一种分布。有(非 GLM)模型假设不同Yi可以有不同参数的不同分布,即您的数据来自不同分布的混合在这种情况下,我们还假设Yi值是独立的,因为依赖值来自具有不同参数的不同分布(即典型的真实世界数据),在大多数情况下太复杂而无法建模(通常是不可能的)。

如前所述,虽然我们经常考虑线性回归中的独立同分布错误的情况,但这在大多数广义线性模型(包括逻辑回归)中没有直接的等价物。在逻辑回归中,我们通常采用结果的独立性假设,这些结果都具有非常严格的关系(即对数概率的线性影响)。但是这些导致随机变量不相同,也不能像线性回归那样分解成常数项加上独立同分布误差。

如果您真的想表明响应具有某种 iid 关系,请关注我的下一段。只知道这个想法有点离经叛道;如果您的教授缺乏耐心,您可能无法在期末考试中获得此回复。

您可能熟悉用于生成随机变量的逆 cdf 方法。如果没有,这里有一个复习:如果X具有累积分布函数FX,然后我可以从X首先随机抽奖quniform(0,1)然后计算X=FX1(q). 这与逻辑回归有何关系?好吧,我们可以认为我们的响应的生成过程有两个部分;一个将协变量与成功概率相关联的固定部分,以及一个随机部分,它确定以固定部分为条件的随机变量的值。固定部分由逻辑回归的链接函数定义,即p=expit(βo+β1x). 对于随机部分,让我们定义FY(y|p)成为具有概率的伯努利分布的 cdfp. 然后我们可以想到响应变量Yi通过以下三个步骤生成:

1.)pi=expit(βo+β1xi)

2.)qiuniform(0,1)

3.)Yi=F1(qi|pi)

那么逻辑回归中的标准假设是qi是独立同居。