机器算法验证 - 逻辑回归是否有独立同分布假设？ - 吾爱随笔录

逻辑回归是否有独立同分布假设？

机器算法验证回归物流假设独立同居

2022-02-02 23:23:20

逻辑回归的响应变量是否存在独立同分布假设？

例如，假设我们有 $1000$ 数据点。好像是回复 $Y_i$ 来自伯努利分布 $p_i=\text{logit}^{-1}(\beta_0+\beta_1 x_i)$ . 因此，我们应该有 $1000$ 具有不同参数的伯努利分布 $p$ .

因此，它们是“独立的”，但不是“相同的”。

我对吗？

PS。我从“机器学习”文献中学习了逻辑回归，我们在其中优化目标函数并检查它是否适合测试数据，而没有过多谈论假设。

我的问题始于这篇文章了解广义线性模型中的链接函数，我在其中尝试了解有关统计假设的更多信息。

2个回答

从您之前的问题中，您了解到 GLM 是用概率分布、线性预测器来描述的 $\eta$ 和链接功能 $g$ 并被描述为

\begin{aligned} η & = X β \\ E (Y | X) & = μ = g^{- 1} (η) \end{aligned}

$\begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align}$

在哪里 $g$ 是一个 logit 链接函数，并且 $Y$ 假设服从伯努利分布

Y_{i} \sim B (μ_{i})

$Y_i \sim \mathcal{B}(\mu_i)$

每个 $Y_i$ 遵循伯努利分布，具有自己的均值 $\mu_i$ 这是有条件的 $X$ . 我们不假设每个 $Y_i$ 来自相同的分布，具有相同的均值（这将是仅截距模型 $Y_i = g^{-1}(\mu)$ )，但他们都有不同的手段。我们假设 $Y_i$ 是独立的，即我们不必担心诸如后续之间的自相关之类的事情。 $Y_i$ 价值观等

iid假设与线性回归（即高斯 GLM）中的误差有关，其中模型为

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} = μ_{i} + ε_{i}

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i$

在哪里 $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ ，所以我们周围有iid噪音 $\mu_i$ . 这就是为什么对残差诊断感兴趣并注意残差与拟合图的原因。现在，在 GLM 之类的逻辑回归的情况下，它并不那么简单，因为没有像高斯模型那样的加性噪声项（参见此处、此处和此处）。我们仍然希望残差在零附近是“随机的”，并且我们不希望看到它们的任何趋势，因为它们表明模型中没有考虑到一些影响，但我们不假设它们是正常和/或iid。另请参阅关于 iid 假设在统计学习线程中的重要性。

作为旁注，请注意我们甚至可以放弃每个假设 $Y_i$ 来自同一种分布。有（非 GLM）模型假设不同 $Y_i$ 可以有不同参数的不同分布，即您的数据来自不同分布的混合。在这种情况下，我们还假设 $Y_i$ 值是独立的，因为依赖值来自具有不同参数的不同分布（即典型的真实世界数据），在大多数情况下太复杂而无法建模（通常是不可能的）。

如前所述，虽然我们经常考虑线性回归中的独立同分布错误的情况，但这在大多数广义线性模型（包括逻辑回归）中没有直接的等价物。在逻辑回归中，我们通常采用结果的独立性假设，这些结果都具有非常严格的关系（即对数概率的线性影响）。但是这些导致随机变量不相同，也不能像线性回归那样分解成常数项加上独立同分布误差。

如果您真的想表明响应具有某种 iid 关系，请关注我的下一段。只知道这个想法有点离经叛道；如果您的教授缺乏耐心，您可能无法在期末考试中获得此回复。

您可能熟悉用于生成随机变量的逆 cdf 方法。如果没有，这里有一个复习：如果 $X$ 具有累积分布函数 $F_X$ ，然后我可以从 $X$ 首先随机抽奖 $q \sim \text{uniform(0,1)}$ 然后计算 $X = F_X^{-1}(q)$ . 这与逻辑回归有何关系？好吧，我们可以认为我们的响应的生成过程有两个部分；一个将协变量与成功概率相关联的固定部分，以及一个随机部分，它确定以固定部分为条件的随机变量的值。固定部分由逻辑回归的链接函数定义，即 $p = \text{expit}(\beta_o + \beta_1 x)$ . 对于随机部分，让我们定义 $F_Y( y | p)$ 成为具有概率的伯努利分布的 cdf $p$ . 然后我们可以想到响应变量 $Y_i$ 通过以下三个步骤生成：

1.) $p_i = \text{expit}(\beta_o + \beta_1 x_i)$

2.) $q_i \sim\text{uniform(0,1)}$

3.) $Y_i = F^{-1}(q_i | p_i)$

那么逻辑回归中的标准假设是 $q_i$ 是独立同居。

其它你可能感兴趣的问题

上一篇lm() 和 rlm() 有什么区别？下一篇维度诅咒对某些模型的影响是否比其他模型更大？