临床试验中可调整的样本量

机器算法验证 样本量 实验设计 统计能力 临床试验
2022-04-19 11:08:13

我看到的大多数临床试验都有固定的样本量。在某些情况下,他们具有允许估计效应大小和值的方差或分布的先验数据,并根据特定功效计算样本大小。在其他情况下,这只是一个猜测。

为什么人们不进行在试验期间确定样本量的临床试验?(例如,通过增加它直到置信区间缩小到预先指定的某个大小)有什么理由这不是一个有效的设计吗?有没有这样的试验例子,以及设计这样的试验的任何参考资料?

2个回答

理想情况下,这就是 II 期试验的重点。这些研究的结果(通常是单臂设计)用于功率计算。有时他们会尝试剂量和资格标准,II 期研究中的活动部分越多,III 期研究的赌博就越大。

如果一种化合物被证明是有希望的,数据监测委员会可能会建议增加或适当减少登记。有时它是关于伤害的风险。如果由于效果不如预期的效果而导致化合物的效力不足,则 DMC 可能会结束研究,因为研究对象由于参与了研究而使自己面临风险。作为伦理问题,研究不能永远进行。

事实上,有一个完整的序列适应性试验领域允许研究人员从 II 期研究无缝过渡到 III 期研究。Scott Emerson 的 S+ 中的统计软件包 SeqTrial 允许您针对各种 alpha 支出规则和效果大小执行样本大小计算。

FDA 过度依赖“传统”统计数据是非常不利的,因为它会影响调查结果的完整性。在这种情况下,这实际上是一个很好的原则,Tom Fleming 在他的论文“从物质中辨别炒作”中反对它。基本上,即使在 II 和 III 之间的协议相似(相同)的情况下,整理 II 期和 III 期研究结果也很少是合适的。这是因为 III 期研究的发生只是因为 II 期看起来/看起来很有希望。因此,选择偏差会影响这些汇总结果的有效性。

我认为 AdamO 的回答很好,但我认为还值得强调的是,这种自适应样本量设计多少(甚至可能是最多?我在制药公司实习期间做过理论工作,但不能说我曾经计划进行真正的研究...)进行临床试验。

也就是说,如果使用顺序设计,则招募和治疗初始患者。在研究的部分过程中,对当前收集的数据进行了分析。此时可能会发生三种可能的行动:数据可能显示出具有统计学意义的结果,并且研究将因已证明疗效而停止,许多具有统计学意义的数据表明没有强效应(例如,置信区间低于某个临床显着阈值)并且研究因无效或数据尚未得出结论而停止(即置信区间中包含临床显着效应和临床不显着效应),其中将收集更多数据. 所以你可以看到,在这种情况下,样本量是固定的。

关于这一点的重要说明:您不能每次“检查”数据时都运行标准测试,否则您正在进行多重比较!因为不同时间的测试统计应该是正相关的,所以它不像标准的多重比较问题那么大,但仍然应该解决它以进行适当的推理。受 FDA 监管的临床试验必须说明他们将如何解决这个问题的计划(正如@AdamO 指出的那样,SeqTrial 为此提供了软件)。然而,很多时候,不受 FDA 监管的学术研究人员会继续收集数据,直到他们发现意义重大,而不需要调整他们正在进行多次比较的事实。这不是研究中对统计实践的最大滥用,但它仍然是一种滥用。