摘要:是否有任何统计理论支持使用- 分布(基于残差偏差的自由度)用于逻辑回归系数的测试,而不是标准正态分布?
前段时间我发现在 SAS PROC GLIMMIX 中拟合逻辑回归模型时,在默认设置下,逻辑回归系数使用分布而不是标准正态分布。也就是说,GLIMMIX 报告一个列,其比率(我会称之为在这个问题的其余部分),但还报告了“自由度”列,以及-基于假设的值分配给具有基于残余偏差的自由度 - 即,自由度 = 观察总数减去参数数量。在这个问题的底部,我提供了一些 R 和 SAS 代码和输出,用于演示和比较。
这让我很困惑,因为我认为对于逻辑回归等广义线性模型,没有统计理论支持使用-在这种情况下分布。相反,我认为我们对这个案子的了解是
- 是“近似”正态分布的;
- 对于小样本量,这种近似值可能很差;
- 然而,不能假设有一个在正态回归的情况下我们可以假设的分布。
现在,在直观的层面上,我认为如果是近似正态分布的,它实际上可能有一些分布,基本上是“-like”,即使它不完全是. 所以使用这里的分布似乎并不疯狂。但我想知道的是:
- 实际上是否有统计理论表明确实遵循逻辑回归和/或其他广义线性模型的分布?
- 如果没有这样的理论,是否至少有论文表明假设以这种方式分布是否与假设正态分布一样好,甚至可能更好?
更一般地说,除了直觉认为它可能基本上是明智的之外,是否有任何实际支持 GLIMMIX 在这里所做的事情?
代码:
summary(glm(y ~ x, data=dat, family=binomial))
输出:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
SAS代码:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
SAS 输出(编辑/缩写):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
实际上,我首先注意到PROC GLIMMIX 中的混合效应逻辑回归模型,后来发现 GLIMMIX 也使用“香草”逻辑回归来做到这一点。
我确实明白,在下面显示的示例中,有 900 次观察,这里的区别可能没有实际区别。那不是我的真正意思。这只是我快速编造的数据,并选择了900,因为它是一个帅气的数字。但是我确实有点想知道小样本量的实际差异,例如< 30。