如何为医疗观众总结可信的时间间隔

机器算法验证 统计学意义 贝叶斯 斯坦 可信区间 药物
2022-01-21 23:53:00

使用 Stan 和前端包rstanarm,或者brms我可以像以前使用混合模型(例如lme. 虽然我的办公桌上有 Kruschke-Gelman-Wagenmakers 等的大部分书籍和文章,但这些并没有告诉我如何为医学观众总结结果,在贝叶斯愤怒的 Skylla 和医学评论家的 Charybdis 之间徘徊( “我们想要意义,而不是那些分散的东西”)。

一个例子:胃频率(1/min)分三组测量;健康对照是参考。每个参与者都有几个测量值,所以我使用了以下混合模型lme

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

稍微编辑的结果:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

为简单起见,我将使用 2* 标准误差作为 95% CI。

在常客的背景下,我将其总结为:

  • 在对照组中,估计频率为 2.7/min(可能在此处添加 CI,但我有时会避免这样做,因为绝对 CI 和差异 CI 会造成混淆)。
  • 在 no_symptoms 组中,频率比对照组高 0.4/min,CI(0.11 至 0.59)/min,p = 0.006。
  • 在 with_symptoms 组中,频率比对照组高 0.2/min,CI(-0.04 到 0.4)/min,p = 0.11。

这大约是医学出版物可接受的最大复杂性,审稿人可能会要求我在第二种情况下添加“不显着”。

这与stan_lmer默认先验相同。

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

其中 CredI 是 90% 的可信区间(请参阅 rstanarm vignette 为什么使用 90% 作为默认值。)

问题:

  • 如何将上述总结转化为贝叶斯世界?
  • 在多大程度上需要事先讨论?我很确定当我提到先验时,这篇论文会带着通常的“主观假设”回来。或者至少“请不要进行技术讨论”。但是所有贝叶斯权威都要求解释仅在先验的情况下有效。
  • 在不背叛贝叶斯概念的情况下,我如何在公式中提供一些“意义”替代?像“令人难以置信的不同”(uuuh ...)或几乎令人难以置信的不同(buoha ...,听起来像“在意义的边缘)。

乔纳·加布里和本·古德里奇 (2016)。rstanarm:通过 Stan 进行的贝叶斯应用回归建模。R 包版本 2.9.0-3。 https://CRAN.R-project.org/package=rstanarm

斯坦开发团队(2015 年)。Stan:用于概率和采样的 C++ 库,版本 2.8.0。网址http://mc-stan.org/

保罗-克里斯蒂安·布尔克纳 (2016)。brms:使用 Stan 的贝叶斯回归模型。R 包版本 0.8.0。https://CRAN.R-project.org/package=brms

Pinheiro J、Bates D、DebRoy S、Sarkar D 和 R 核心团队(2016 年)。nlme:线性和非线性混合效应模型R 包版本 3.1-124,http://CRAN.R-project.org/package=nlme>。

2个回答

快速思考:

1) 关键问题是你试图为你的听众回答什么应用问题,因为这决定了你想要从统计分析中得到什么信息。在这种情况下,在我看来,您想要估计组之间差异的大小(或者如果这是您的听众更熟悉的度量,则可能是组的比率大小)。您在问题中提出的分析并未直接提供差异的大小。但是从贝叶斯分析中得到你想要的东西是直截了当的:你想要差异(或比率)的后验分布。然后,根据差异(或比率)的后验分布,您可以做出如下的直接概率陈述:

“95% 最可信的差异落在 [低 95% HDI 限制] 和 [高 95% HDI 限制]”(这里我使用 95% 最高密度区间 [HDI] 作为可信区间,因为这些是由定义最高密度参数值,它们被称为“最可信”)

医学期刊的读者会直观而正确地理解该陈述,因为这是读者通常认为的常客置信区间的含义(即使这不是常客置信区间的含义)。

您如何从 Stan 或 JAGS 获得差异(或比率)?仅通过对完整的 MCMC 链进行后处理。在链中的每一步,计算相关的差异(或比率),然后检查差异(或比率)的后验分布。DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/中给出了示例,MCMC 通常在图 7.9(第 177 页)中,JAGS 在图 8.6(第 211 页)中,对于 Stan 在第 16.3 节中(第. 468)等!

2)如果你被传统强迫就是否拒绝零差做出声明,你有两个贝叶斯选项。

2A) 一种选择是对接近零的区间及其与 HDI 的关系进行概率陈述。为此,您在零附近设置了一个实际等效区域 (ROPE),这只是适合您应用领域的决策阈值 --- 差异有多大?例如,在临床非劣效性测试中通常会设置这样的界限。如果您在您的领域中有一个“效果大小”度量,则可能存在“小”效果大小的约定,并且 ROPE 限制可能是小效果的一半。然后你可以做出直接的概率陈述,例如:

“只有 1.2% 的差异后验分布实际上等于零”

“95% 最可信的差异实际上并不等于零(即 95% 的 HDI 和 ROPE 不重叠),因此我们拒绝零。” (注意后验分布的概率陈述与基于该陈述的后续决策之间的区别)

如果 95% 最可信的值实际上都等于零,那么出于实际目的,您也可以接受零差值。

2B) 第二个贝叶斯选项是贝叶斯零假设检验。(注意上面的方法不是称为“假设检验”!)贝叶斯零假设检验对假设差异只能为零的先验分布与假设差异可能是一些分散的可能性范围的替代先验分布进行贝叶斯模型比较。这种模型比较的结果(通常)非常强烈地依赖于替代分布的特定选择,因此必须对替代先验的选择进行仔细的论证。最好对 null 和 Alternative 使用至少轻度知情的先验,以便模型比较真正有意义。请注意,模型比较提供的信息与估计组间差异的信息不同,因为模型比较解决的是不同的问题。因此,即使通过模型比较,

可能有一些方法可以从 Stan/JAGS/MCMC 输出中进行贝叶斯零假设检验,但在这种情况下我不知道。例如,可以尝试对贝叶斯因子进行 Savage-Dickey 近似,但这将依赖于知道差异的先验密度,这需要一些数学分析或先验的一些额外的 MCMC 近似。

第 2 章讨论了确定空值的两种方法。12 的 DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/但是我真的不希望这个讨论被关于评估空值的“正确”方法的辩论所牵制。它们只是不同,它们提供不同的信息。我回复的要点是上面的第 1 点:看组间差异的后验分布。

遵循 SO 礼仪,这应该作为对@John K. Kruschke 的评论而写,但较长的评论难以构建。对不起。

  • @John K. Kruschke 写道:仅仅通过对完整的 MCMC 链进行后处理......

lower_CredI并且upper_CredI在原始帖子中是根据您提到的完整 MCMC 链计算的,并且只是稍微重新格式化以更好地与lme输出进行比较。虽然您喜欢 HDI,但这些都是简单的分位数;在这个例子中,对称的后验并没有太大的区别。

  • 绳索和效果大小

我已经看到向伦理委员会提出的申请是在没有说明关于效应大小的假设的情况下计算统计功效的。即使对于无法定义“临床相关效应”的情况,也很难向医学研究人员解释这个概念。非劣效性试验要容易一些,但这些并不是研究的主题。

所以我很确定引入 ROPES 是不可接受的——另一种假设,人们不能记住一个以上的数字。贝叶斯因子可能会起作用,因为像以前的 p 值一样,只有一个数字可以带回家。

  • 先验

我很惊讶斯坦团队的@John K. Kruschke 和@Ben Goodrich 都没有提到先验;大多数关于该主题的论文都要求在展示结果时详细讨论先前的敏感性。

如果在您的书的下一版(希望与 Stan 一起)中,您可以为选定的示例添加框“如何用 100 个单词发表此书(在非统计论文中)”。当我逐字记录您的第 23.1 章时,典型的医学研究论文将有 100 页和数字长……