背景:我是一名生物统计学家,目前正在处理细胞表达率数据集。该研究将一组从不同供体收集的细胞暴露于某些肽。细胞要么表达某些生物标志物作为响应,要么不表达。然后记录每个供体组的响应率。反应率(以百分比表示)是感兴趣的结果,肽暴露是预测因子。
请注意,观察结果集中在捐助者内部。
由于我只有汇总数据,因此我将捐赠者的响应率视为连续数据(至少目前如此)。
复杂性源于我的数据中有很多零。太多了,不容忽视。我正在考虑一个零膨胀伽马模型来处理我已经扭曲了连续数据以及过多的零的事实。我也考虑过 Tobit 模型,但这似乎较差,因为它假设审查在一个下限,而不是真正的零(计量经济学家可能会说这种区别是没有实际意义的)。
问题:一般来说,什么时候适合使用零膨胀伽马模型?也就是说,假设是什么?又如何解释它的推论?如果您有讨论此问题的论文的链接,我将不胜感激。
我在 SAS-L 上找到了一个链接,其中 Dale McLerran 为零膨胀伽马模型提供了 NLMIXED 代码,因此这似乎是可能的。尽管如此,我还是不想盲目地冲锋陷阵。