使用逻辑回归系数的优势比计算风险比

机器算法验证 r 物流 广义线性模型 优势比 相对风险
2022-03-09 09:40:31

我有一个二元逻辑回归,只有一个二元固定因子预测器。我不将其作为卡方或费舍尔精确检验的原因是我还有许多随机因素(每个人有多个数据点,并且个人是分组的,尽管我不关心系数或显着性对于那些随机变量)。我用 R glmer 做这个。

我希望能够将预测变量的系数和相关置信区间表示为风险比而不是优势比。这是因为(可能不是为你,而是为我的听众)风险比更容易理解。此处的风险比是如果预测变量为 1 而不是 0,则结​​果为 1 而不是 0 的机会的相对增加。

使用 exp() 从系数和相关 CI 中获取优势比是微不足道的。要将优势比转换为风险比,您可以使用“RR = OR / (1 – p + (px OR)),其中 p 是对照组的风险”(来源:http://www.r- bloggers.com/how-to-convert-odds-ratio-to-relative-risks/)。但是,您需要控制组中的风险,在我的情况下,这意味着如果预测变量为 0,则结​​果为 1 的机会。我相信模型中的截距系数实际上是这种机会的可能性,所以我可以使用prob=odds/(odds+1) 得到那个。就风险比率的中心估计而言,我对此非常满意。但让我担心的是关联的置信区间,因为截距系数也有自己关联的 CI。我应该使用截距的中心估计值,还是保守起见,我应该使用截距 CI 的任何限制,使我的相对风险 CI 最宽?还是我完全找错了树?

1个回答

Zhang 1998 最初提出了一种计算风险比 CI 的方法,建议您可以使用 CI 的下限和上限作为优势比。

这种方法不起作用,它是有偏见的,并且通常会产生对风险比 95% CI 的反保守(过紧)估计。这是因为您正确提到的截距项和斜率项之间的相关性。如果优势比趋向于 CI 中的较低值,则截距项会增加,以说明暴露水平为 0 的人群的总体患病率较高,反之则说明 CI 中的值较高。这些中的每一个分别导致 CI​​ 的下限和上限。

要直接回答您的问题,您需要了解结果的基线流行度以获得正确的置信区间。来自病例对照研究的数据将依赖其他数据来告知这一点。

或者,如果您具有参数估计的完整协方差结构,则可以使用 delta 方法。OR 到 RR 转换(具有二进制曝光和单个预测器)的等效参数化是:

RR=1+exp(β0)1+exp(β0β1)

并使用多元 delta 方法和中心极限定理,它表明的近似正态分布的方差n([β^0,β^1][β0,β1])DN(0,I1(β))RR

请注意,这仅适用于二元曝光和单变量逻辑回归。有一些简单的 R 技巧可以利用 delta 方法和边际标准化来处理连续协变量和其他调整变量。但为简洁起见,我不会在这里讨论。

但是,有几种方法可以直接从 R 中的模型计算相对风险及其标准误差。以下两个示例:

x <- sample(0:1, 100, replace=T)
y <- rbinom(100, 1, x*.2+.2)
glm(y ~ x, family=binomial(link=log))
library(survival)
coxph(Surv(time=rep(1,100), event=y) ~ x)

http://research.labiomed.org/Biostat/Education/Case%20Studies%202005/Session4/ZhangYu.pdf