我正在计划一项研究,我需要进行功率计算。其中很大一部分似乎取决于对数据(我还没有)的猜测和估计。猜测似乎是这样的标准做法,我不禁想知道它们在实践中有多准确。有谁知道将预测能力与关联率进行比较的研究?
例如,在所有声称他们将 90% 的能力检测到 p<0.05 的关联的研究中,当他们获得数据并且预测触及现实世界时,实际发现 p<0.05 关联的百分比是多少?接近90了吗?
这纯粹是出于好奇,我理解幂计算的必要性,我只是好奇它们在科学领域的实际运作情况。
我正在计划一项研究,我需要进行功率计算。其中很大一部分似乎取决于对数据(我还没有)的猜测和估计。猜测似乎是这样的标准做法,我不禁想知道它们在实践中有多准确。有谁知道将预测能力与关联率进行比较的研究?
例如,在所有声称他们将 90% 的能力检测到 p<0.05 的关联的研究中,当他们获得数据并且预测触及现实世界时,实际发现 p<0.05 关联的百分比是多少?接近90了吗?
这纯粹是出于好奇,我理解幂计算的必要性,我只是好奇它们在科学领域的实际运作情况。
你不知道什么时候是错误的,因此您无法通过查看测试结果来计算正确的功率经验拒绝率。您不应在该计算中包括 null 为 true 的情况。(如果你能说什么时候是错误的,你一开始就不需要测试。)
此外,即使你能知道什么时候是真的还是假的,它仍然是错误的。除非您使用跨效应大小的整个功效曲线,否则在某些给定的总体效应大小下指定所需的功效。样本当量是该总体效应大小下正确拒绝的比例,因此分母将仅限于效应实际上是该大小的可比案例的数量(当然你不知道)。
也就是说,功效计算是基于您对人群的要求——在某些有意义的人群效应大小下,您需要的最小功效是多少——例如,它可能是临床上重要或与教育相关的效应(例如,您想要的功效如果效果是某些技能测试的通过率提高了 5%,例如)等等——你会对拥有良好能力感兴趣的数量。
什么是感兴趣的效应大小通常不来自数据。这不是一个统计考虑,而是一个主题。为此,通常最好(在可能的情况下)根据原始效果而非标准化效果来构建此类考虑,因为此类考虑通常适用于原始效果的规模。这也不是片刻思考的问题(尽管这似乎是我所看到的一切);它还需要扎实的领域知识来理解这种影响大小可能是什么。
我发现有一种趋势是根据之前一些研究的估计效果来计算功率计算输入。通常没有明显的理由为什么对人口效应大小的嘈杂估计应该是您想要某些给定功率的效应大小 - 这是将两个不同的任务混为一谈,具有不同的考虑。
但是,如果要使用数量估计值,例如(例如)总体均值和标准差的估计值,那么将它们视为总体值是非常错误的。这种做法通常会导致比通常(基于人口的)计算建议的功率更低,有时甚至更低。一种适当的研究方法(特别是对于更复杂的模型)是通过模拟。
您可以不将典型功率计算视为猜测工作,而是将其视为对未知固定真实功率的估计。这意味着您还可以通过使用历史研究中的参数估计和标准误差估计为其构建置信区间来执行功率推断。在下面的示例中,功率的点估计值高于 90%,但推断不能排除真实功率可能要低得多。
例子:正在为治疗免疫炎症性疾病的资产制定第 2 和第 3 阶段开发计划。第 3 阶段计划作为一项非劣效性研究,使用二元反应者指数的比例差异。监管机构将非劣效性边际设置为 –0.12,单边显着性水平为 0.025。第 2 阶段是针对连续终点的剂量发现研究。本研究还收集了响应者指数的数据,并包括一个控制组,以估计为第 3 阶段计划的比例差异。在第 2 阶段考虑更严格的 –0.05 的非劣效性边际,但由于第 2 阶段的样本量通常是比第 3 阶段小,可以容忍较大的单边显着性水平 0.20。根据文献回顾,比较器的估计响应比例为 0.43,N=1200。
功效曲线显示了在第 3 阶段成功的长期概率作为未知真实比例差异的函数,基于 N=365 受试者每组测试 Ho:在单边 0.025 显着性水平上的比例差异 ≤ –0.12使用似然比检验。这种长期概率形成了对下一个实验结果的置信水平。如果在第 2 阶段取得最小成功的情况下对第 3 阶段功率的推断感到满意,那么对任何其他成功的第 2 阶段结果都会感到满意。上面的置信曲线通过反转似然比检验描绘了所有水平的单侧 p 值和置信区间,显示了在第 2 阶段结束时最小成功的情况。这是基于每组 N = 90 名受试者,a控制组的响应率估计为 0.43,估计比例差异为 0.01(最小可检测效应)测试 Ho:比例差异 ≤ –0.05。这会产生 0.20 的单边 p 值。通过使用恒等链接函数反转 Wald 检验,可以生成几乎相同的置信曲线。p 值描述了观察到的第 2 阶段结果的事后抽样概率,或者如果比例差异的假设为真,则更极端。这种长期概率代表了给定数据的假设的合理性。p 值描述了观察到的第 2 阶段结果的事后抽样概率,或者如果比例差异的假设为真,则更极端。这种长期概率代表了给定数据的假设的合理性。p 值描述了观察到的第 2 阶段结果的事后抽样概率,或者如果比例差异的假设为真,则更极端。这种长期概率代表了给定数据的假设的合理性。
上图显示,阶段 2 的最小成功会产生围绕阶段 3 功率高值的推断,但仍承担一些风险。虽然第 3 阶段功效的最大似然估计为 95.9%,但人们可以仅以 80% 的置信度声称,鉴于第 2 阶段的成功率最低,第 3 阶段研究的功效不低于 50%(p 值 = 0.2 检验 Ho:相 3 功率 ≤ 0.50)。选择第 2 阶段零假设 Ho:比例差 ≤ –0.05 作为第 3 阶段功率为 50% 时的值。
在我看来,确保第 3 阶段的功率不比以通过第 2 阶段为条件的抛硬币差是一个很好的经验法则。如果在第 2 阶段取得最小成功的情况下需要对第 3 阶段功率进行更强的推断,则可以简单地增加第 3 阶段的样本量。这将通过降低阶段 3 最小可检测效应来使阶段 3 功率曲线相对于阶段 3 零假设变陡。或者,可以调整第 2 阶段的显着性水平和无效假设,并根据可接受的第 2 阶段最小可检测效应选择第 2 阶段的样本量。一旦第二阶段研究结果可用,第三阶段功率的双边置信限可以与最大似然点估计一起提供。这些点和区间估计甚至可以绘制为第 3 阶段样本量的函数。
为了回答这个问题,首先将功效函数本身与样本量计算分开是有用的,样本量计算试图针对替代假设实现规定的功效水平。每当我们提出假设检验的方法时,就会出现幂函数,它测量在检验中拒绝原假设的概率,条件是分析参数的真实值。功效函数是检验中感兴趣的参数、检验的显着性水平和样本量的函数。但是,它不依赖于数据值——只依赖于样本大小。
现在,当我们根据功效要求进行样本量计算时,我们需要规定三件事:(1)检验的显着性水平;(2) 我们希望达到的最低功率水平;(3) 我们希望达到这个功率水平的(替代)参数值。一旦我们规定了这三件事,就会有一些最小样本量这将根据参数的规定值达到所需的功率水平。此处数据的外观无需猜测,因为此计算不需要数据的内容。
至于进行实证检验以对功效进行事后检验的想法,唯一真正值得检验的是检验的基础模型假设是否准确。如果基础模型假设是准确的,那么功效计算就是准确的——它仅反映了该模型下测试的数学属性。如果功率曲线的经验评估要检查研究中的拒绝率,则需要知道这些研究中的真实参数值,才能知道在功率曲线上应该将经验拒绝率与进行比较的位置。