预期效果大小与预期效果大小

机器算法验证 假设检验 规模效应 统计能力
2022-04-07 18:11:51

在估计影响大小以确定统计测试的最佳样本量时,教科书的方法似乎是从试点研究等中做到这一点的。将效应大小定义为最小的相关效应是否也合法,独立于真实的、系统的效应,这些效应太弱以至于没有兴趣?

例如,如果我想测试对某些现有产品的改进,这将增加其生产成本。我知道,如果产品比现有解决方案至少“好”x%(按某种标准),客户会支付这笔溢价。我可以使用效应量和产生的样本量作为工具来抑制较小差异的显着结果吗?如果不是,那会是什么问题以及正确的解决方案如何?

2个回答

有许多方法可以执行功效计算以确定理想的样本量。正如您所提到的,其中一种方法是选择“有人会关心”的阈值。这可能受先验知识的支配,相信在效果达到特定大小之前,您的领域不会特别感兴趣,等等。

我的建议是查看一系列可能的效果大小。如果您正在执行一个功率计算,那么执行多个来评估阈值的灵敏度是非常容易的。例如,如果您将阈值设置为 5% 而结果是 4.9%,您是否真的可以接受您的研究动力不足?或 3%。或者根本没有真正的效果?

例如,下图询问(在这种情况下为固定样本量),在一系列可能的暴露:未暴露比率和效应大小下,研究的功效是什么。组成一个类似的改变研究人群的情节同样容易,以更全面地了解您的研究的力量。

您似乎也在询问是否可以使用小样本量来“抑制”特定结果。可以设计一项研究并承认样本量限制会导致它对特定效应量的影响不足,但我不会故意这样做。一个无效或小的影响发现仍然是一个发现,故意削弱一项研究似乎......有缺陷。此外,从功效分析中获得的最佳样本量通常有些乐观——它几乎不包括缺失数据、有趣的子组分析或其他需要更大样本的问题。画一条强硬的路线是个坏主意。

在此处输入图像描述

@EpiGrad 在这里提出了一些很好的观点。我想我会多提供一点信息。他提到功效分析通常是乐观的,您提到通常建议估计您希望从试点分析中捕获的效应大小。我只想说清楚,这个过程是有偏差的,因此估计的功率将高于真实功率。基于试点研究甚至完整研究的估计效应大小存在相当大的不确定性。如果真实效果大小大于估计值,您将拥有更多的力量,如果它更小,您将拥有比您认为的更少的力量。然而,功率的变化率在两个方向上并不相同。具体来说,随着效果大小的缩小,功率的下降速度比随着效果大小的扩大而增加的速度更快。这样,即使效应大小的分布是对称的,权力的分布也不是。要计算更稳健的功效估计,请计算效果大小的完整分布并对其进行积分。(一种快速而肮脏的方法是计算 ES 的 95% CI,并在您的估计和 CI 端点处获得功率的加权平均值。)