当治疗组较小时,较大的控制样本是否优于平衡的样本量?

机器算法验证 样本量 不平衡类
2022-03-23 17:44:39

我正在进行一项实验,研究一种罕见疾病的脑容量变化。我们有少量患者(n = 8),但有大量对照组(n = 100)。一些同事建议应该使用一个平衡的组,即。选择 8 个控制大脑,但我觉得这违反直觉。

使用整个对照组来更好地估计人口脑容量不是更有意义吗?

1个回答

你的同事不正确。

他们的建议可能是基于这样一个事实,即典型参数检验(如t检验)对违反假设的稳健性受到不平衡 N 的严重影响。但是如果你不违反它们,那么更高的 N 会更好,即使是不平衡的。您可以随时通过模拟检查任何违规行为的影响。

一个简单的方法来想象为什么从 100 个控制对象中抽取 8 个样本是一个坏主意,就是画出两个控制组不同的数据图表。每个都有患者和对照脑容量测量值以及每个测量值周围的置信区间 (CI)。在每张图中,测试组周围的 CI 将是相同的。但是,在 100 个完整的集合中,对照组周围的 CI 将比在 8 个样本周围的 CI 小得多。您想呈现哪个图表?

在决定是使用全部 100 个控制样本还是只使用 8 个控制样本时要问自己的其他问题包括:您认为哪个对控制均值的估计更好?哪个对控制方差有更好的估计?哪个更能代表人群?所有这些问题的答案是更大的群体。与您的参数的准确估计相关联比您在特定测试中可能遇到的问题要重要得多。

注意:8 CI 的控制样本可能会小于完整对照组的样本。但是,这可能意味着您的 8 个对照样本是一个糟糕的样本,并进一步突出了您为什么要坚持使用完整数据集的原因。