使用检验逻辑回归系数吨t和剩余偏差自由度

机器算法验证 r 物流 数理统计 sas 自由程度
2022-03-06 04:54:33

摘要:是否有任何统计理论支持使用t- 分布(基于残差偏差的自由度)用于逻辑回归系数的测试,而不是标准正态分布?


前段时间我发现在 SAS PROC GLIMMIX 中拟合逻辑回归模型时,在默认设置下,逻辑回归系数使用t分布而不是标准正态分布。1也就是说,GLIMMIX 报告一个列,其比率β^1/var(β^1)(我会称之为z在这个问题的其余部分),但还报告了“自由度”列,以及p-基于假设的值t分配给z具有基于残余偏差的自由度 - 即,自由度 = 观察总数减去参数数量。在这个问题的底部,我提供了一些 R 和 SAS 代码和输出,用于演示和比较。2

这让我很困惑,因为我认为对于逻辑回归等广义线性模型,没有统计理论支持使用t-在这种情况下分布。相反,我认为我们对这个案子的了解是

  • z是“近似”正态分布的;
  • 对于小样本量,这种近似值可能很差;
  • 然而,不能假设z有一个t在正态回归的情况下我们可以假设的分布。

现在,在直观的层面上,我认为如果z是近似正态分布的,它实际上可能有一些分布,基本上是“t-like”,即使它不完全是t. 所以使用t这里的分布似乎并不疯狂。但我想知道的是:

  1. 实际上是否有统计理论表明z确实遵循t逻辑回归和/或其他广义线性模型的分布?
  2. 如果没有这样的理论,是否至少有论文表明假设t以这种方式分布是否与假设正态分布一样好,甚至可能更好?

更一般地说,除了直觉认为它可能基本上是明智的之外,是否有任何实际支持 GLIMMIX 在这里所做的事情?

代码:

summary(glm(y ~ x, data=dat, family=binomial))

输出:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SAS代码:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS 输出(编辑/缩写):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1实际上,我首先注意到PROC GLIMMIX 中的混合效应逻辑回归模型,后来发现 GLIMMIX 也使用“香草”逻辑回归来做到这一点。

2我确实明白,在下面显示的示例中,有 900 次观察,这里的区别可能没有实际区别。那不是我的真正意思。这只是我快速编造的数据,并选择了900,因为它是一个帅气的数字。但是我确实有点想知道小样本量的实际差异,例如n< 30。

3个回答

实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下 z 确实遵循分布?

据我所知,不存在这样的理论。我确实经常看到手摇论据,偶尔还会看到模拟实验来支持某些特定 GLM 家族或其他家族的这种方法。模拟比手摇的论点更有说服力。

如果没有这样的理论,是否至少有论文表明以这种方式假设分布与假设正态分布一样好,甚至可能更好?

不是我记得看到过,但这并没有说太多。

我自己的(有限的)小样本模拟表明,假设逻辑案例中的 t 分布可能比假设正态分布要差得多:

在此处输入图像描述

例如,这里是 10000 次 Wald 统计模拟的结果(作为 QQ 图),用于对 15 个等间距 x 观测值进行普通逻辑回归(即固定效应,未混合),其中总体参数均为零。红线是 y=x 线。正如你所看到的,在每种情况下,正态在中间的一个很好的范围内都是相当好的近似值 - 到大约第 5 和第 95 个百分位数(1.6-1.7ish),然后在测试统计的实际分布之外尾巴比正常的要轻得多。

因此,对于逻辑案例,我想说任何使用 t- 而不是 z- 的论点似乎都不太可能在此基础上成功,因为像这样的模拟往往表明结果可能倾向于落在较轻的尾巴上侧面正常,而不是较重的拖尾。

[但是,我建议您不要再相信我的模拟,而只是作为警告要小心 - 尝试一些您自己的,也许是在更能代表您自己的 IV 和模型典型情况的情况下(当然,您需要模拟在某些 null 为 true 的情况下,查看在 null 下使用什么分布)。我很想听听他们是如何为你而来的。]

这里有一些额外的模拟,只是为了扩展 Glen_b 已经展示的内容。

在这些模拟中,我查看了逻辑回归的斜率,其中预测变量在[1,1]. 真正的回归斜率始终为 0。我改变了总样本量 (N=10,20,40,80) 和二元响应的基本速率 (p=0.5,0.731,0.881,0.952)。

这是比较观察到的QQ图z值(沃尔德统计)到相应的理论分位数t分配 (df=N2)。这些基于每个参数组合的 1000 次运行。请注意,对于小样本量和极端基准率(即图的右上角区域),在许多情况下,响应仅采用单个值,在这种情况下z=0p-价值=1. QQ模拟

这是显示分布的直方图p- 基于相同的逻辑回归斜率的值t分布。这些基于每个参数组合的 10,000 次运行。p-值被分组到宽度为 0.05 的 bin 中(总共 20 个 bin)。水平虚线表示 5% 标记,即频率 = 500。当然,一个人想要分配p- 原假设下的值是一致的,也就是说,所有的条都应该在虚线周围。再次注意图中右上角的许多退化案例。 组织模拟

结论似乎是使用t当样本量较小和/或当基准利率接近 0 或 1 时,这种情况下的分布可能会导致严重保守的结果。

你们俩干得好。Bill Gould 在http://www.citeulike.org/user/harrelfe/article/13264166中对此进行了研究,并在标准的固定效应二元逻辑模型中得出了相同的结论。

简而言之,由于逻辑模型没有误差项,因此没有剩余方差可以估计,因此t分布不适用[至少在多重插补调整的背景下]。