事后功率大小计算

机器算法验证 引导程序 cox模型 统计能力 分箱
2022-04-06 13:31:35

我可能有一个简单的问题。

我已经完成了对在我们单位进行的一项观察性前瞻性研究的结果的分析。在这项研究中,我评估了特定生物标志物是否与死亡率独立相关。此外,我还尝试测试该生物标志物的新临界值是否可以比 Cox 调整生存分析中已经“文献验证”的临界值表现更好。

我的问题是我只有 39 个事件结果,并且在 Cox 分析中用于调整的先验选择变量的数量是 7。为了避免由于事件结果数量少而导致的过度拟合问题,我执行了引导验证,以便确定在 Cox 分析中估计 ß 的置信区间。

然而,审查我的分析的人之一说,我还应该对这项研究进行事后功效分析,同时考虑到两个截止值之间的微小差异(之前的截止值是 15,而我的截止值是-off 为 17.4)。我已经阅读了这样一个事实,并且您可能会确认,执行事后功率分析不被认为是正确的,但我必须这样做。使用这个公式是否正确?在此处输入图像描述

但是,我如何才能确定我的研究是否有足够的能力来检测两个临界值之间的差异?

1个回答

首先,正如Russ Lenth所说:

你得到了数据,做了分析,但没有达到“意义”。因此,您可以回顾性地计算能力,以查看测试是否足够强大。这是一个空洞的问题。当然它还不够强大——这就是为什么结果并不重要。功效计算对设计有用,而不是分析。

要么你发现了一个显着的差异,要么你没有。(你没有在你的问题中告诉我们。)

因此,需要这种事后分析的审稿人显然不是生物标志物研究的统计设计和分析专家。无论此人是在您自己的机构,还是评估您的手稿以供发表的审稿人,请从当地的统计学家那里获得一些帮助来解决这个问题。

其次,寻找生物标志物值(或任何连续变量)的临界值通常不是一个好主意即使临床决策最终是是/否,生物标志物值也只是临床决策过程的一部分。如果这是一个定量生物标志物,它的值可能与结果有一些连续(不一定是线性)的关系,识别这种关系,与其他临床变量结合以进行决策(例如在列线图中)比设置任意截止。

第三,只有 39 个事件,您甚至很难评估与结果相关的 3 或 4 个变量。通常的经验法则是每个变量需要 10 到 20 个事件。在您的前瞻性观察研究中只有 39 个事件,听起来整个研究对 7 个预测变量的功效不足,而不仅仅是您试图将 17.4 的截止值与 15 个中的一个区分开来。

第四,虽然尝试通过引导来最小化过度拟合是一个好的开始,但不清楚您是否以能够实现目标的方式进行引导。您的问题的含义是,根据对您收集的数据的分析,而不是在某些理论基础上,您发现 17.4 比​​ 15 更好,然后基于 15 与 17.4 截止值进行引导比较。即使获得更好的截止值是一个有价值的目标,这也可能不是正确的方法。自举应该包含整个过程,在您的情况下包括选择“更好”截止的过程。

最后,您引用的特定公式似乎是用于发病率研究而不是生存研究,其中事件发生时间很重要。出于研究设计而非事后分析的目的,请考虑使用用于简单功率评估的在线工具,或学习由R等计算环境提供的工具