我有一些过度分散的数据,正在尝试确定哪种模型最适合这些数据。这些数据通常是一些认知任务中症状的计数或正确项目的数量。举个例子:
set.seed(69)
g1<-rnorm(700,30,9); g2<-rnorm(100,25,7); g3<-rnorm(100,20,5)
gt<-data.frame(score=c(g1, g2, g3), fac1=factor(rep(c("a", "b", "c"), c(700, 100, 100))), fac2=ordered(rep(c(0,1,2), c(3,13,4))))
gt$score<-with(gt, ifelse(fac2 == 0, score, score-rnorm(1, 0.5, 2)))
gt$score<-with(gt, ifelse(fac2 == 2, score-rnorm(1, 0.5, 2), score))
gt$score<-round(with(gt, ifelse(score>=30, 30, score)))
gt$cov1<-with(gt, score + rnorm(900, sd=40))/40
gt$score.30<-with(gt, 30-score)
我正在考虑使用的模型是:
glmnb1<-glm.nb(score.30~cov1 + fac1*fac2, data=gt)
hur1<-hurdle(score.30~cov1 + fac1*fac2, dist="negbin", data=gt)
quasi1<-glm(cbind(score, score.30)~cov1+fac1*fac2, family="quasibinomial", data=gt)
- 如何在负二项式和准二项式之间做出决定?
- 在此示例中,与负二项式相比,障碍模型更适合。但是,如果准二项式比负二项式更好(假设或其他),您如何比较障碍和准二项式?是否存在准二项式障碍?