根据我一直在阅读的内容,在加州大学洛杉矶分校统计咨询组似然比测试和 wald 测试网站上的其他内容中,在测试两个 glm 模型是否显示出对数据集的拟合显着差异时非常相似(请原谅我的措辞可能有点偏)。本质上,我可以比较两个模型并测试第二个模型是否显示出比第一个模型更好的拟合,或者模型之间没有差异。
因此,对于相同的回归模型,LR 和 Wald 检验应该显示相同的大致 p 值。至少应该得出同样的结论。
现在我在 R 中对同一个模型进行了两次测试,得到了截然不同的结果。以下是 R 对一个模型的结果:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
关于数据,data $ y 包含计数数据,data $ site_name 是一个有 9 个级别的因子。数据$ y中有 54 个值,每级数据$ site_name 有 6 个值。
以下是频率分布:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
现在,由于零计数的巨大过度分散,该数据不能很好地拟合泊松分布。但是对于另一个模型,其中数据$ y>0 非常适合泊松模型,并且在使用零膨胀泊松模型时,我仍然得到非常不同的 wald 测试和 lrtest 结果。wald 检验显示 p 值为 0.03,而 lrtest 的 p 值为 0.0003。尽管结论可能相同,但仍然存在 100 倍的差异。
那么我在这里对似然比与 waldtest 的理解有什么错误?