我正在运行具有百分比数据的混合效果模型。
我使用高斯分布方法运行我的模型。AIC=-258,我的条件伪 R 平方和边缘伪 R 平方分别为 0.33 和 0.11(非常好!)。我意识到我应该使用二项分布对其进行建模,因为我有百分比。现在,结果非常相似,但我的 AIC=2386 更差,伪 R 平方减少了很多(0.07 条件和 0.02 边际)。
这是说高斯方法更适合数据,因此我应该优先使用它吗?我怎么能证明它是合理的?
我正在运行具有百分比数据的混合效果模型。
我使用高斯分布方法运行我的模型。AIC=-258,我的条件伪 R 平方和边缘伪 R 平方分别为 0.33 和 0.11(非常好!)。我意识到我应该使用二项分布对其进行建模,因为我有百分比。现在,结果非常相似,但我的 AIC=2386 更差,伪 R 平方减少了很多(0.07 条件和 0.02 边际)。
这是说高斯方法更适合数据,因此我应该优先使用它吗?我怎么能证明它是合理的?
这里有一堆问题
您无法比较具有连续数据与计数数据的模型之间的可能性/偏差/AIC,请参见,例如Can WAIC 用于比较具有不同可能性的贝叶斯线性回归模型?.
此外,您是否有离散的 k/n 或连续比例?在任何一种情况下,对原始数据应用 lm 通常不是一个好主意(请参阅在线性回归中使用百分比结果有哪些问题?),至少使用转换(例如,logit 有时用于连续比例,也用于反正弦,但请参阅https://www.ncbi.nlm.nih.gov/pubmed/21560670)。对于 k/n 二项式,最好使用 glm,对于连续比例,通常使用 beta 回归或伪二项式。
关于要做什么的决定——毫无疑问,我会简单地选择数据生成模型,即在 k/n 的情况下用于二项式。检查模型拟合,例如使用DHARMa和 k/n 二项式,您还必须检查过度分散。