泊松回归估计二元结果的相对风险

机器算法验证 物流 泊松分布 流行病学 优势比 相对风险
2022-01-22 11:45:28

简要总结

为什么逻辑回归(具有优势比)更常见于具有二元结果的队列研究,而不是泊松回归(具有相对风险)?

背景

根据我的经验,本科和研究生的统计学和流行病学课程通常教导应该使用逻辑回归来对具有二元结果的数据进行建模,并将风险估计值报告为优势比。

然而,泊松回归(以及相关的:准泊松、负二项式等)也可用于对具有二元结果的数据进行建模,并且通过适当的方法(例如稳健的三明治方差估计器),它可以提供有效的风险估计和置信水平。例如,

从泊松回归中,可以报告相对风险,一些人认为与优势比相比更容易解释,特别是对于频繁的结果,尤其是对于没有强大统计学背景的个人而言。参见 Zhang J. 和 Yu KF,什么是相对风险?一种在共同结果队列研究中校正优势比的方法,JAMA。1998 年 11 月 18 日;280(19):1690-1。

从阅读医学文献来看,在具有二元结果的队列研究中,报告逻辑回归的优势比而不是泊松回归的相对风险似乎仍然更为普遍。

问题

对于具有二元结果的队列研究:

  1. 是否有充分的理由报告逻辑回归的优势比而不是泊松回归的相对风险?
  2. 如果不是,那么医学文献中具有相对风险的泊松回归的频率是否主要归因于科学家、临床医生、统计学家和流行病学家之间方法论理论和实践之间的滞后?
  3. 中级统计和流行病学课程是否应该包括更多关于二元结果泊松回归的讨论?
  4. 我是否应该鼓励学生和同事在适当的时候考虑泊松回归而不是逻辑回归?
2个回答

对您所有四个问题的回答,前面有注释:

现代流行病学研究报告队列研究的逻辑回归的优势比实际上并不常见。它仍然是病例对照研究的首选回归技术,但更复杂的技术现在已成为流行病学AJEIJE等主要流行病学期刊分析的事实上的标准. 他们将更有可能出现在报告观察性研究结果的临床期刊上。还有一些问题,因为泊松回归可以在两种情况下使用:你所指的,其中它是二项式回归模型的替代品,以及在时间到事件的情况下,这对于队列来说非常常见学习。特定问题答案中的更多详细信息:

  1. 对于队列研究,并非真的没有。有一些非常特殊的情况,比如可能使用了分段逻辑模型,但这些都是异常值。队列研究的全部意义在于您可以直接测量相对风险或许多相关措施,而不必依赖优势比。然而,我会做两点说明:泊松回归通常是估计一个速率,而不是风险,因此它的效果估计通常会被记录为比率(在我看来,主要是,所以您仍然可以将其缩写为 RR)或发生密度比(IRR 或 IDR)。因此,请确保在您的搜索中您确实在寻找正确的术语:有许多使用生存分析方法的队列研究。对于这些研究,泊松回归做出了一些有问题的假设,特别是危险是恒定的。因此,使用 Cox 比例风险模型而不是 Poisson 模型分析队列研究并报告随后的风险比 (HR) 更为常见。如果要命名用于分析队列的“默认”方法,我会说流行病学实际上是由 Cox 模型主导的。这有其自身的问题,一些非常优秀的流行病学家想改变它,

  2. 可能会将不频率归因于两件事 - 我不一定认为存在您建议的频率。一个是肯定的——“流行病学”作为一个领域并不完全封闭,你会从临床医生、社会科学家等以及不同统计背景的流行病学家那里获得大量论文。逻辑模型是常用的,根据我的经验,许多研究人员会转向熟悉的工具而不是更好的工具。

    第二个问题实际上是您所说的“队列”研究是什么意思。像 Cox 模型或 Poisson 模型这样的东西需要对人时进行实际估计。有可能进行一项队列研究,在特定时期跟踪一个有些封闭的人群——尤其是在早期的“Epi 入门”示例中,其中泊松或考克斯模型等生存方法不是那么有用。逻辑模型可以用于估计在疾病流行率足够低的情况下近似于相对风险的优势比。其他直接估计它的回归技术,如二项式回归,存在收敛问题,很容易使新学生脱轨。请记住,您引用的 Zou 论文都使用泊松回归技术来解决二项式回归的收敛问题。但适合二项式的队列研究实际上只是“队列研究馅饼”的一小部分。

  3. 是的。坦率地说,生存分析方法应该比通常更早出现。我最喜欢的理论是,不是这样的原因是逻辑回归之类的方法更容易编码更容易编码的技术,但对其效果估计的有效性有更大的警告,被教授为“基本”标准,这是一个问题。

  4. 您应该鼓励学生和同事使用适当的工具。一般来说,对于该领域,我认为您最好建议考虑 Cox 模型而不是 Poisson 回归,因为大多数评论者会(并且应该)迅速提出对恒定风险假设的担忧。但是,是的,您越早让他们摆脱“我如何将我的问题硬塞进逻辑回归模型?” 我们都会过得更好。但是,是的,如果您正在看一项没有时间的研究,则应向学生介绍二项式回归和替代方法,例如泊松回归,可用于解决收敛问题。

当相对风险模型更合适时,我也推测文献中逻辑模型的普遍性。作为统计学家,我们都非常熟悉遵守惯例或坚持“下拉菜单”分析。这些产生的问题远远多于解决的问题。逻辑回归被教授为用于分析二元结果的“标准现成工具”,其中个人有是/否类型的结果,如死亡或残疾。

泊松回归经常作为一种分析计数的方法被教授。有点强调的是,这种概率模型对于 0/1 结果建模非常有效,尤其是在它们很少见的情况下。然而,逻辑模型也适用于罕见的结果:优势比近似为风险比,即使与病例对照研究的结果相关抽样也是如此。对于相对风险或泊松模型,情况并非如此。

当个体可能有不止一次的“结果”时,泊松模型也很有用,并且您可能对累积发病率感兴趣,例如疱疹、住院或乳腺癌的爆发。出于这个原因,指数系数可以解释为相对比率详细说明发生率和风险之间的差异:如果每 1000 人年有 100 例,但所有 100 例都发生在一个人身上,则发病率(率)仍然是每 10 人年 1 例。在提供医疗服务的环境中,您仍然需要治疗 100 例病例,并且为 80% 的人接种疫苗会使发病率降低 80%(先验)。然而,至少一种结果的风险是 1/1000。结果和问题的性质共同决定了哪种模型是合适的。

我会担心说“我们适合发病率的泊松回归模型来估计相对”,因为这可能会给结果的性质以及一个人是否会不止一次地经历它带来一些混乱。如果您对相对风险感兴趣,则必须这样说,并准备讨论当二元事件具有以下均值方差关系时均值与结果成正比的不适当方差假设的敏感性:var(y)=E(y)(1E(y))

我的理解是,如果科学兴趣在于估计相对比率,那么有一个混合模型:相对风险回归,它是使用逻辑方差结构和泊松均值结构的 GLM。也就是说:log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

顺便说一句,Zhang 的文章提供了基于相对风险估计的有偏估计的推断,该估计没有考虑截距项的可变性。您可以通过引导来更正估计量。

要回答具体问题:

  1. 如果结果很少见,则它们大致相同。如果结果是常见的,则来自 Poisson 的相对比率估计量的方差可能会被过度夸大,我们可能更喜欢优势比作为对二元结果与多个暴露之间关联的有偏但有效的估计。我还认为病例对照研究证明了使用优势比作为一种不随结果相关抽样而变化的衡量标准。Scott 和 Wild 97 讨论了围绕这个问题的方法。当然,其他期刊可能没有专门的统计审稿人。

2.3. 我认为您对医学评论和学术界发生的事情过度指责和假设。

  1. 您应该始终鼓励您的学生尽可能使用适当的模型。

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat