准二项式与负二项式和障碍

机器算法验证 r 二项分布 负二项分布 准可能性
2022-04-09 22:22:11

我有一些过度分散的数据,正在尝试确定哪种模型最适合这些数据。这些数据通常是一些认知任务中症状的计数或正确项目的数量。举个例子:

set.seed(69)
g1<-rnorm(700,30,9); g2<-rnorm(100,25,7); g3<-rnorm(100,20,5)
gt<-data.frame(score=c(g1, g2, g3), fac1=factor(rep(c("a", "b", "c"), c(700, 100, 100))), fac2=ordered(rep(c(0,1,2), c(3,13,4))))
gt$score<-with(gt, ifelse(fac2 == 0, score, score-rnorm(1, 0.5, 2)))
gt$score<-with(gt, ifelse(fac2 == 2, score-rnorm(1, 0.5, 2), score))
gt$score<-round(with(gt, ifelse(score>=30, 30, score))) 
gt$cov1<-with(gt, score + rnorm(900, sd=40))/40
gt$score.30<-with(gt, 30-score)

我正在考虑使用的模型是:

glmnb1<-glm.nb(score.30~cov1 + fac1*fac2, data=gt)    
hur1<-hurdle(score.30~cov1 + fac1*fac2, dist="negbin", data=gt)
quasi1<-glm(cbind(score, score.30)~cov1+fac1*fac2, family="quasibinomial", data=gt)
  1. 如何在负二项式和准二项式之间做出决定?
  2. 在此示例中,与负二项式相比,障碍模型更适合。但是,如果准二项式比负二项式更好(假设或其他),您如何比较障碍和准二项式?是否存在准二项式障碍?
1个回答

虽然“负二项式”和“准二项式”中都有“二项式”一词,但它们非常不同。负二项式是一个实际的参数分布,它的范围是无限的,所以你应该把它看作是泊松分布的推广,而不是二项式分布。如果您的数据是 30 次中“成功”的计数(因此存在上限),那么无论是否增加了障碍,负二项式都是不合适的。

另一方面,“拟二项式”模型不对应任何实际分布,因此很难将其与基于分布的模型进行比较。如果您想深入了解生成数据的过程,您可以考虑二项式分布的其他参数泛化,例如 beta-二项式模型(您也可以制作一个跨栏版本)。