在对连续数据进行建模时,泊松分布如何工作?它是否会导致信息丢失?

机器算法验证 混合模式 泊松分布 生物统计学 准可能性
2022-01-21 02:02:27

一位同事正在为她的论文分析一些生物学数据,其中包含一些令人讨厌的异方差性(下图)。她正在使用混合模型对其进行分析,但仍然遇到残差问题。

对响应变量进行对数转换可以清理事情,并且根据对这个问题的反馈,这似乎是一种合适的方法。然而,最初,我们认为在混合模型中使用转换变量存在问题。事实证明,我们误解了 Littell & Milliken (2006) SAS for Mixed Models中的一个声明,该声明指出了为什么不适合转换计数数据然后使用正常的线性混合模型对其进行分析(完整引用如下) .

一种也改善残差的方法是使用具有泊松分布的广义线性模型。我读过泊松分布可用于对连续数据进行建模(例如,如本文所述,并且 stats 包允许这样做,但我不明白当模型拟合时会发生什么。

为了了解如何进行基础计算,我的问题是:当您将泊松分布拟合到连续数据时,1)数据是否四舍五入到最接近的整数2)这是否会导致信息丢失和3)什么时候,如果有的话,对连续数据使用泊松模型是否合适?

Littel & Milliken 2006, pg 529 “转换 [count] 数据可能会适得其反。例如,转换可能会扭曲随机模型效应的分布或模型的线性。更重要的是,转换数据仍然存在可能性负预测计数。因此,使用转换数据从混合模型推断是高度可疑的。

在此处输入图像描述

4个回答

我一直在用 Huber/White/Sandwich 线性化方差估计量相当频繁地估计连续的正结果泊松回归。但是,这并不是做任何事情的特别好的理由,所以这里有一些实际的参考资料。

从理论上讲,不需要是整数,因为基于泊松似然函数的估计器是一致的。这在 Gourieroux、Monfort 和 Trognon (1984) 中有所体现。这称为泊松 PMLE 或 QMLE,表示伪/准最大似然。 y

还有一些令人鼓舞的模拟证据来自Santos Silva 和 Tenreyro(2006 年),其中 Poisson 是最佳展示。它在结果中有很多零的模拟中也表现良好您还可以轻松地进行自己的模拟,以说服自己这适用于您的雪花盒。

最后,您还可以使用具有日志链接功能和泊松族的 GLM。这会产生相同的结果并安抚仅计数数据的膝跳反应。

没有非门控链接的参考:

Gourieroux, C.、A. Monfort 和 A. Trognon (1984)。“伪最大似然法:泊松模型的应用”,Econometrica,52,701-720。

泊松分布仅适用于计数数据,试图用连续数据提供它是令人讨厌的,我认为不应该这样做。原因之一是您不知道如何缩放连续变量。泊松很大程度上取决于规模!我试图在这里用一个简单的例子来解释它。因此,仅出于这个原因,我不会将泊松用于计数数据以外的任何事情。

还要记住,GLM 做了两件事——链接函数(转换响应变量,在泊松情况下登录)和残差(在这种情况下是泊松分布)。考虑生物学任务,考虑残差,然后选择合适的方法。有时使用对数变换是有意义的,但要保持正态分布的残差。

“但似乎传统观点认为您不应该将输入的数据转换为混合模型”

我第一次听到这个!对我来说根本没有任何意义。混合模型可以像正常的线性模型一样,只是增加了随机效应。你能在这里放一个准确的引用吗?在我看来,如果日志转换可以解决问题,请使用它!

这是关于如何使用泊松模型来拟合对数回归的另一个精彩讨论:http: //blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/(正如博客条目所暗示的那样,我正在告诉一个朋友)。基本主旨是我们只使用泊松模型中的日志链接部分。需要方差等于均值的部分可以用方差的三明治估计来覆盖。然而,这都是针对 iid 数据的;Dimitriy Masterov正确引用了集群/混合模型扩展

如果问题是方差随均值缩放,但您有连续数据,您是否考虑过使用可以适应您遇到的问题的连续分布。也许是伽玛?方差将与均值呈二次关系——实际上很像负二项式。