你们中的一些人可能已经阅读过这篇不错的论文:
O'Hara RB, Kotze DJ (2010) 不要对计数数据进行对数转换。生态与进化方法一:118—122。点击。
目前,我正在将负二项式模型与转换数据的高斯模型进行比较。与 O'Hara RB,Kotze DJ (2010) 不同,我正在研究低样本量和假设检验环境中的特殊情况。
A 使用模拟来研究两者之间的差异。
I 类错误模拟
所有计算都在 R 中完成。
) 和 5 个处理组 ( )模拟了来自因子设计的数据。丰度来自具有固定色散参数(θ = 3.91)的负二项式分布。所有处理中的丰度均相等。
对于模拟,我改变了样本大小(3、6、9、12)和丰度(2、4、8、...、1024)。使用负二项式 GLM ( MASS:::glm.nb()
)、拟泊松 GLM ( glm(..., family = 'quasipoisson'
) 和高斯 GLM + 对数转换数据 ( lm(...)
) 生成和分析了 100 个数据集。
我使用似然比检验 ( lmtest:::lrtest()
)(高斯 GLM 和 neg.bin GLM)以及 F 检验(高斯 GLM 和准泊松 GLM)(anova(...test = 'F')
)将模型与空模型进行了比较。
如果需要,我可以提供 R 代码,但也可以在这里查看我的相关问题。
结果
对于小样本量,LR 检验(绿色 - neg.bin.;红色 - 高斯)导致 I 型错误增加。F 检验(蓝色 - 高斯,紫色 - 准泊松)似乎甚至适用于小样本量。
LR 测试为 LM 和 GLM 提供了相似的(增加的)I 类错误。
有趣的是,准泊松效果很好(但也适用于 F 检验)。
正如预期的那样,如果样本量增加,LR-Test 也表现良好(渐近正确)。
对于小样本量,GLM 存在一些收敛问题(未显示),但仅在低丰度时,因此可以忽略误差源。
问题
请注意,数据是从 neg.bin 生成的。模型 - 所以我预计 GLM 表现最好。然而,在这种情况下,转换丰度的线性模型表现更好。准泊松(F 检验)也是如此。我怀疑这是因为 F 检验在小样本量下做得更好 - 这是正确的吗?为什么?
由于渐近性,LR-Test 表现不佳。有改进的可能吗?
是否还有其他可能表现更好的 GLM 测试?如何改进 GLM 的测试?
对于样本量较小的计数数据,应该使用什么类型的模型?
编辑:
有趣的是,二项式 GLM 的 LR 测试确实工作得很好:
在这里,我从二项分布中提取数据,设置与上述类似。
红色:高斯模型(LR-Test + arcsin 变换),Ocher:二项式 GLM(LR-Test),绿色:高斯模型(F-Test + arcsin 变换),蓝色:准 GLM(F-test),紫色:非参数。
这里只有高斯模型(LR-Test + arcsin 变换)显示 I 类错误增加,而 GLM(LR-Test)在 I 类错误方面做得很好。因此,分布之间似乎也存在差异(或者可能是 glm 与 glm.nb?)。