在临床解释的最佳截止值处对连续变量进行二分法

机器算法验证 回归 物流 多重回归 预测模型
2022-02-17 06:48:55

在医学背景下,当呈现具有连续预测变量的二元结果时,OR(优势比)可能难以解释。

例子:

一位医生进行了一项研究,他想看看高血压(持续性)是否会增加心脏病发作的风险(二元心脏病发作否/是)。

他通过回顾性地查看患者记录并注意他们是否有心脏病发作以及他们的血压是多少来做到这一点。

他对连续血压变量进行逻辑回归,得到的 OR 为 1.01。

现在的问题是。这个 OR 似乎不是很激烈,对于一些临床医生来说可能难以理解。因此,医生会进行 ROC 分析,以了解在什么值下血压的敏感性和特异性最高以预测心脏病发作。他注意到这是 150 mmHg(忽略上下文,假设这是他的目的的最佳值)。

他再次倒退,心脏病发作,新的二分法血压高于或低于 150 mmHg,OR 为 5。

这对于临床医生来说更容易理解。如果您的血压高于 150 mmHg,您心脏病发作的几率会增加 5 倍(这当然不是说您的几率会增加 5 倍)。

我的问题是,这是处理这些数据的正确方法吗?了解统计数据,即使是最轻微的调整也几乎总是存在陷阱,所以我想听听您的意见。

我应该说我理解对连续数据进行二分法的问题,例如,它假装差异从无风险变为巨大风险,从 1 mmHg 到下一个,但如果他要以易于理解的方式将他的发现的一些信息传递给他的同行,这可能吗?

4个回答

正如其他用户所指出的,对连续协变量进行二分法是不明智的。

我采用的一种策略是将预测变量重新调整为更合理的值。1 mmHg 可能不是一个非常有意义的量表来解释 BP 的变化。但是,如果您重新调整预测变量的比例,使 1 个单位的差异代表 10 mmHg 的差异,那么事情变得更容易消化,优势比将更加明显,并具有以下解释

血压每升高 10 mmHg,心肌梗死的几率会增加 1 倍经验(β).

与 EdM 的答案类似,边际效应图是一种有用的方式,可以展示临床测量和结果之间的关系,同时保持其他变量不变。这些图很有帮助,因为它们显示了预测变量和结果之间的关系,因此如果结果是非线性的,医生可以很容易地看到这一点并进行适当的解释。这是 Frank Harrell 的《回归建模策略》一书中的一个示例

对血压变量进行二分法并进行推断的一个问题是,您假设所有血压低于 150 mmHg 的患者由于他们的血压而具有相同的风险,我不认为这是真的。我认为一旦患者的血压升至 150 毫米汞柱以上,他们就会神奇地变得心脏病发作的风险更高的假设背后没有任何生物学因素。血压的小幅升高更有可能导致风险的小幅增加。

像这样的不正确假设会使推理无效,因为模型不再正确。不正确的模型将导致无效的推论和不正确的 p 值,因此我们必须定义模型以最适合生物学上合理的内容。这意味着将血压视为连续而不是二分法。

对于消化率,请使用代表性情况的示例:在您的示例中,可能会比较 BP 为 160 与 BP 为 120 的风险。

对于可以考虑临床研究中通常重要的多个预测因子的方法,请使用列线图它提供了一个图形工具来显示预测值如何影响结果。R 中的rms提供了从拟合回归模型构建列线图的工具。

您提出的这种特殊方法:

因此,医生会进行 ROC 分析,以了解在什么值下血压的敏感性和特异性最高以预测心脏病发作。他注意到这是 150 mmHg... 他再次倒退,心脏病发作和新的二分法血压高于或低于 150 mmHg,OR 为 5

除了您承认的二分法的一般问题之外,其他原因是不明智的。一方面,敏感性和特异性的使用往往涉及一个隐藏的假设,即假阳性和假阴性分类具有相同的成本。另一方面,一旦您使用数据设置截止值,基于p值和置信区间计算的假设将不再成立。

另一个问题是 IV 和 DV(此处为 BP 和心脏病发作风险)之间的关系可能不是线性的。我认为这种非线性在医学领域会很常见。实际上,这有时被作为对连续变量进行分类的原因(尽管分为两个以上的类别)。但这并不好。更好的方法是使用 IV 的样条。