为什么 GLM 的线性检验统计量服从 F 分布?

机器算法验证 广义线性模型
2022-03-31 16:25:05

作为 MATLAB 用户,我一直在使用coefTest它来执行线性假设检验。例如在中,如果我想测试是否,那么我可以简单地使用线性对比 然后,测试统计量将遵循分布,由此我可以计算我的值。y=β0+β1x1+β2x2+β3x3β1=β2

C=[0110].
Fp

  • 这适用于所有广义线性模型吗?特别是,我关心一般线性模型(高斯情况)和逻辑回归(二项式情况)。

  • 如果是这样,尽管 GLM 有这么多不同的实例化,为什么测试统计量总是遵循分布?F

似乎许多消息来源认为这是理所当然的,可能是因为这太基本了。然而,我需要了解为什么这样才能有足够的信心使用它。如果有人能指点我一本权威的书,我将不胜感激。

1个回答

为什么 GLM 的线性测试静态服从 F 分布?

没有

然后,测试统计量将遵循分布 [...] 这是否适用于所有广义线性模型?F

在一般情况下没有结果可以确定它,实际上我们可以证明(例如通过在特定情况下的模拟)它不是一般情况。

当然,它适用于高斯情况,但推导依赖于数据的正态性。您可以看到逻辑回归并非如此,因为数据(以及因此基于数据的“F”统计量)是离散的。

有一个渐近的 卡方结果这与斯卢茨基定理相结合应该让我们知道 F 统计量将渐近地分布为缩放的卡方。

但是,在足够大的样本中(其中“”的大小取决于许多因素),我们可能会预期 F 分布仍然近似正确,因为分布都用于计算 p 值,并且测试统计量的实际分布都渐近地趋向于相同的缩放卡方分布。F

我们看到了在 GLM 中常用 t 检验来测量参数显着性的相同问题(许多软件包都这样做),即使它仅在高斯情况下是 t 分布的;对于其他人,我们只有一个渐近正态结果(但是对于为什么在足够大的样本中不应该表现不佳的类似论据可以提出)。t

我没有好的书建议。有些书给出了使用的手摇论据(有些类似于我上面的),有些书似乎完全忽略了证明它的必要性。F