正确使用和解释零膨胀伽马模型

机器算法验证 回归 伽马分布 混合分布 零通胀
2022-03-17 21:58:55

背景:我是一名生物统计学家,目前正在处理细胞表达率数据集。该研究将一组从不同供体收集的细胞暴露于某些肽。细胞要么表达某些生物标志物作为响应,要么不表达。然后记录每个供体组的响应率。反应率(以百分比表示)是感兴趣的结果,肽暴露是预测因子。

请注意,观察结果集中在捐助者内部。

由于我只有汇总数据,因此我将捐赠者的响应率视为连续数据(至少目前如此)。

复杂性源于我的数据中有很多零。太多了,不容忽视。我正在考虑一个零膨胀伽马模型来处理我已经扭曲了连续数据以及过多的零的事实。我也考虑过 Tobit 模型,但这似乎较差,因为它假设审查在一个下限,而不是真正的零(计量经济学家可能会说这种区别是没有实际意义的)。

问题:一般来说,什么时候适合使用零膨胀伽马模型?也就是说,假设是什么?又如何解释它的推论?如果您有讨论此问题的论文的链接,我将不胜感激。

在 SAS-L 上找到了一个链接,其中 Dale McLerran 为零膨胀伽马模型提供了 NLMIXED 代码,因此这似乎是可能的。尽管如此,我还是不想盲目地冲锋陷阵。

2个回答

首先,您在表达式数据中看不到真正的零。你的生物学家是这么说的,就像所有生物学家一样,但是当生物学家说“它为零”时,它实际上意味着“它低于我的检测阈值,所以它不存在”。由于该领域缺乏数学复杂性,这是一个语言问题。我在这里以个人经验发言。

您提供的链接中对零膨胀伽马的解释非常好。产生你的数据的物理过程是,如果我理解的话,选择一个供体,然后用某种肽处理,然后从那个供体的细胞中测量反应。这里有几层。一个是供体反应的整体强度,它反映了每个被测量的特定细胞的表达水平。如果您将零膨胀伽马中的伯努利变量解释为“捐助者的反应足够强大,可以测量”,那么它可能没问题。请注意,在这种情况下,您将单个细胞表达的噪音与强烈响应的供体之间的差异混为一谈。由于单个细胞中表达的噪声大致呈伽马分布,

如果来自供体与细胞的额外变异不会破坏您的 Gamma 拟合,而您只是试图获得表达与应用的肽,那么没有理由不应该这样。

如果需要进行更详细的分析,那么我建议构建一个自定义层次模型以匹配导致您的测量的过程。

我找到了一个我觉得相当优雅的解决方案。文献中有一篇出色的文章,题为“Analysis of repeating measure data with clumping at zero”,它展示了相关数据的零膨胀对数正态模型。作者提供了一个基于 PROC NLMIXED 并且非常容易实现的 SAS 宏。好消息是,通过省略repeated宏中的语句,这可以简化为没有聚类观察的情况。坏消息是 NLMIXED 还没有我们经常需要的许多相关结构,例如自回归。

该宏名为 MIXCORR,并且有一个非常有用的 Wiki 页面,您可以在此处找到。宏本身可以在SAS MIXCORR 宏部分下​​载,以获取具有重复测量和聚集为零的数据

我强烈推荐所有这些链接。希望您发现它们很有用。