机器算法验证 - 为什么在逻辑回归中使用 Wald 检验？ - 吾爱随笔录

为什么在逻辑回归中使用 Wald 检验？

机器算法验证物流似然比沃尔德测试

2022-03-24 02:52:34

一些统计软件在报告回归系数时使用 Wald 统计量。例如，R 和 Stata 默认报告 Wald。

维基百科上的逻辑回归文章说，不幸的是没有参考：

“而不是 Wald 方法，计算逻辑回归 p 值的推荐方法是似然比检验 (LRT)”

Wald 和 LRT 如何计算逻辑回归系数（自变量）？这是为了提醒您如何计算它们并突出它们的差异。

来自维基百科上的 Wald 测试页面：

[T]Wald 检验对于重新参数化不是不变的，而无论我们使用 R、log R 还是 R 的任何其他单调变换，似然比检验都会给出完全相同的答案。

因此，在逻辑回归的上下文中，如果您记录了一个回归量，其 p 值与未记录的情况相比会有所不同（这是正确的）。如果使用 LRT，p 值会改变吗？

从同一个 Wald 测试页面：

另一个原因是 Wald 检验使用两个近似值（我们知道标准误差，并且分布是 χ2），而似然比检验使用一个近似值（分布是 χ2）。

虽然 Wald 和似然比是渐近等价的，但在逻辑回归中，我们通常处于渐近线前设置，因此这不是将其视为等价的理由。

因此，Wald 检验的劣势似乎超过了逻辑设置中的优势，并且似然比更好。

我猜逻辑回归软件例程使用 Wald 检验是因为它更容易计算效率，这在过去首次创建 R 和 Stata 等软件时更为重要。然后，通过向后兼容并且不想改变其逻辑函数的语义，Wald 统计量仍然是默认值。有任何证据证明情况如此吗？

我应该更改默认的 Wald 与似然比吗？一个较小的问题，在 R 中是否容易做到这一点？

1个回答

在逻辑回归（和其他具有规范链接函数的广义线性模型）中，系数估计由Fisher Scoring得出：迭代其中是 Fisher 信息，是分数，直到收敛。完成后，剩下的是协方差矩阵 $\hat\theta$

{\vec{θ}}_{k + 1} = {\vec{θ}}_{k} + I^{- 1} ({\vec{θ}}_{k}) U ({\vec{θ}}_{k})

$\vec\theta_{k+1} = \vec\theta_k + \mathcal{I}^{-1}(\vec\theta_k)U(\vec\theta_k)$

I

$\mathcal{I}$

U

$U$

I^{- 1}

$\mathcal{I}^{-1}$ 对于系数估计；其对角线元素的平方根是每个系数的 Wald 检验所需的方差。因此，您几乎可以通过拟合模型免费获得 Wald 测试；但是似然比测试需要为您要测试的每个系数拟合一个新模型——样本量大且预测变量很多，它们需要很长时间才能进行。（这也是更普遍的情况：如果您使用观察到的信息（对数似然的负 Hessian）而不是预期信息；或者即使您使用不涉及计算 Hessian 的算法找到最大似然估计，用数值评估 Hessian 比拟合大量模型要快。）

如果逻辑回归的目的是始终测试每个系数是否等于零，那么在显示拟合模型的摘要时，统计软件默认使用似然比检验就会有争议。但是，这并不总是，甚至经常不是重点——尤其是对于某些模型，许多测试的假设通常可能根本不感兴趣（请参阅什么值，一般来说，对于 null线性回归模型中的 β0 假设？）——提供 Wald 检验并让分析师选择进行哪些（如果有）进一步检验以及使用什么方法是有意义的。^†（不提供测试也是有意义的，并迫使分析师考虑哪些，如果有的话，

† 我不知道有任何 R 函数可以单独对模型的所有系数进行 LRT——写一个并不难——但是两者都stats:::drop1&car:::Anova为一组更可能感兴趣的默认空假设进行。

NB 对重新参数化的不变性仅意味着 LRT 用于，例如， $H_0: \beta_7 =0$ 与轻轨相同 $H_0: \frac{1}{1+\mathrm{e}^{-\beta_7}}=1$ （Wald 测试不是这种情况）。更换 $\beta_7$ 和 $\log \beta_7$ ，另一方面，将拟合一个本质上不同的模型。

其它你可能感兴趣的问题

上一篇大型重尾数据集的聚类下一篇ANN的一个具有挑战性的问题