医学试验中基线特征的同质性测试

机器算法验证 实验设计 异方差 假设 临床试验 随机分配
2022-03-22 02:01:42

我一直在阅读医学期刊,它们反复显示来自随机对照试验的样本的基线特征,然后他们对其进行了测试,以确保所研究的两组之间没有差异。例如,在操作组中,您有 39 名男性和 3 名女性。在非手术组中,您有 35 名男性和 8 名女性。男性将有一个 p 值,然后女性将有一个 p 值。

我在徘徊到底正在测试什么以及如何测试。我最初的想法是卡方检验,尽管这只会产生 1 个 p 值,这将着眼于两组患者的分布情况。论文似乎建议他们只评估女性分布,然后分别评估男性分布。但这是对的吗?人们会怎么做呢?

2个回答

现在普遍认为,在随机实验中测试基线差异具有误导性。Stephen Senn 的《药物开发中的统计问题》一书讨论了这一点。涉及的众多问题之一是您永远不知道何时停止。为了测试平衡,您返回并收集了多少未收集的变量?再加上低功率和没有真正的解释,除非怀疑作弊,否则这是浪费时间。

这实际上不是您问题的答案,但无论具体情况如何,此类测试背后的逻辑似乎从根本上被误导了。

如果治疗分配没有或不能正确随机化,则表明两组在某些任意变量集上具有大致相同的特征不会取代随机化。如果治疗分配实际上是适当随机化的,人口统计特征测试绝对不会提供任何信息。在传统水平上,二十分之一的检验应该是显着的,因为零假设在构造上是正确的。

此外,你为什么要关心小组的组成?如果年龄或性别等变量不与治疗相互作用,那至少无关紧要。另一方面,如果您有理由相信您的治疗不会在不同的亚组中产生相同的效果,您将失去功效,但随机化可确保它不会威胁到推理。同时,即使组成完全相同的组也不会帮助您提高力量或了解每个子组的效果。为此,您需要在模型中包含相关变量或分别估计对每个子组的影响。

在任何情况下,将大 p 值解释为没有差异的证据是错误的,尤其是对于如此小的样本量。如果您考虑治疗不能随机化的情况,那么测试年龄或性别差异的能力当然很大程度上取决于样本量。对于一个小样本,你基本上没有能力检测到除了明显的差异之外的任何东西,即使较小的差异确实很重要。对于大样本,您会发现微小的差异(例如几个月的年龄差异)是“显着的”,即使它们非常小以至于对您的结果完全没有影响。