逻辑回归的响应变量是否存在独立同分布假设?
例如,假设我们有数据点。好像是回复来自伯努利分布. 因此,我们应该有具有不同参数的伯努利分布.
因此,它们是“独立的”,但不是“相同的”。
我对吗?
PS。我从“机器学习”文献中学习了逻辑回归,我们在其中优化目标函数并检查它是否适合测试数据,而没有过多谈论假设。
我的问题始于这篇文章了解广义线性模型中的链接函数,我在其中尝试了解有关统计假设的更多信息。
逻辑回归的响应变量是否存在独立同分布假设?
例如,假设我们有数据点。好像是回复来自伯努利分布. 因此,我们应该有具有不同参数的伯努利分布.
因此,它们是“独立的”,但不是“相同的”。
我对吗?
PS。我从“机器学习”文献中学习了逻辑回归,我们在其中优化目标函数并检查它是否适合测试数据,而没有过多谈论假设。
我的问题始于这篇文章了解广义线性模型中的链接函数,我在其中尝试了解有关统计假设的更多信息。
从您之前的问题中,您了解到 GLM 是用概率分布、线性预测器来描述的和链接功能并被描述为
在哪里是一个 logit 链接函数,并且假设服从伯努利分布
每个遵循伯努利分布,具有自己的均值 这是有条件的. 我们不假设每个来自相同的分布,具有相同的均值(这将是仅截距模型),但他们都有不同的手段。我们假设是独立的,即我们不必担心诸如后续之间的自相关之类的事情。价值观等
iid假设与线性回归(即高斯 GLM)中的误差有关,其中模型为
在哪里,所以我们周围有iid噪音. 这就是为什么对残差诊断感兴趣并注意残差与拟合图的原因。现在,在 GLM 之类的逻辑回归的情况下,它并不那么简单,因为没有像高斯模型那样的加性噪声项(参见此处、此处和此处)。我们仍然希望残差在零附近是“随机的”,并且我们不希望看到它们的任何趋势,因为它们表明模型中没有考虑到一些影响,但我们不假设它们是正常和/或iid。另请参阅关于 iid 假设在统计学习线程中的重要性。
作为旁注,请注意我们甚至可以放弃每个假设来自同一种分布。有(非 GLM)模型假设不同可以有不同参数的不同分布,即您的数据来自不同分布的混合。在这种情况下,我们还假设值是独立的,因为依赖值来自具有不同参数的不同分布(即典型的真实世界数据),在大多数情况下太复杂而无法建模(通常是不可能的)。
如前所述,虽然我们经常考虑线性回归中的独立同分布错误的情况,但这在大多数广义线性模型(包括逻辑回归)中没有直接的等价物。在逻辑回归中,我们通常采用结果的独立性假设,这些结果都具有非常严格的关系(即对数概率的线性影响)。但是这些导致随机变量不相同,也不能像线性回归那样分解成常数项加上独立同分布误差。
如果您真的想表明响应具有某种 iid 关系,请关注我的下一段。只知道这个想法有点离经叛道;如果您的教授缺乏耐心,您可能无法在期末考试中获得此回复。
您可能熟悉用于生成随机变量的逆 cdf 方法。如果没有,这里有一个复习:如果具有累积分布函数,然后我可以从首先随机抽奖然后计算. 这与逻辑回归有何关系?好吧,我们可以认为我们的响应的生成过程有两个部分;一个将协变量与成功概率相关联的固定部分,以及一个随机部分,它确定以固定部分为条件的随机变量的值。固定部分由逻辑回归的链接函数定义,即. 对于随机部分,让我们定义成为具有概率的伯努利分布的 cdf. 然后我们可以想到响应变量通过以下三个步骤生成:
1.)
2.)
3.)
那么逻辑回归中的标准假设是是独立同居。