对等价性 TOST 和 UMP 测试之间差异的直观解释

机器算法验证 等价 托斯特
2022-03-06 18:32:50

等价假设检验不同于更常见的差异假设检验。

在差异检验中,原假设是某种形式的“单独的数量是相同的”,并且足够极端的证据促使拒绝支持“单独的数量不同”的结论。

在等价检验中,原假设是某种形式的“单独的量至少相差 ”,并且足够极端的证据促使拒绝支持“单独的量在由定义的区间内等价”的结论。ΔΔ

专业提示:将差异测试的推论与等效岩石的测试相结合,因为它将功率和相关效应大小置于测试框架内。继 Reagle & Vinod (2003) 之后,我采用命名法来指代与差异检验相关的实证主义零假设,而与等价检验相关的否定主义零假设:H0+H0

从差异和等价测试组合推断

我对等价性测试的两种单向测试(TOST;参见 Hauck 和 Anderson,1984 或 Schuirmann,1987)方法(即 将 转换为单面测试,拒绝这两个意味着)。但是,我仍在为等效性的统一最强大(UMP) 测试进行陡峭的学习曲线。H0|θ|ΔH01θΔH02θΔHAΔ<θ<Δ

直观地说:

UMP 等效性检验的动机是什么?我收集到区间假设通过非中心分布改变拒绝概率。但我不明白这在一般意义上是如何工作的。H0

除了对 TOST 的监管偏好之外,还有哪些考虑会导致对 TOST 与 UMP 等效性测试的偏好?我喜欢 TOST 的一件事是,等价项可以很容易地以测量变量的单位或测试统计量的分布单位来表达和交流,并且这些量很容易来回转换。我不太清楚 UMP 等价测试中等价项的单位。


参考

Reagle, DP 和 Vinod, HD (2003)。使用数值计算的拒绝区域推断否定主义理论。计算统计与数据分析,42(3):491-512。

Hauck, WW 和 Anderson, S. (1984)。在两组比较生物利用度试验中测试等效性的新统计程序。药代动力学和药效学杂志,12(1):83-91。

舒尔曼,DA(1987 年)。比较两种单侧测试程序和评估平均生物利用度等效性的功效方法。药理学,15(6):657-680。

1个回答

第一个问题:UMP 是,名副其实的,最强大的。如果样本量和等价区域都很小,则 TOST 可能会发生置信区间几乎不会适合等价区域的情况。这导致几乎为零的功率。此外,TOST 通常是保守的(即使置信区间每当 UMP 存在时,它总是有 power12α>α

第二个问题:有时 UMP 不存在。正是这种严格的 3 阶总正性必须保持密度,请参见 Wellek 关于等效性和非劣性检验的教科书的附录。直观地说,这个条件保证了各个点假设检验的功效曲线恰好有一个最大值。那么临界值是该功率曲线具有水平的点。这就是为什么您 -distribution 找到它们的原因:Obtaining -values for UMP tests for equivalenceαF1,n1,ψ2pt

此外,如果您的等价假设未标准化,即而不是,那么即使对于正态分布的数据,UMP 在空间中也有一个奇怪的拒绝区域。以Brown、Hwang 和 Munk (1997)为例μ]ϵ,ϵ[μ]ϵσ,ϵσ[(μ^,σ^2)

正如您所提到的,最重要的是,观察尺度上的置信区间比值更具指导性。因此 ICH 指南需要置信区间。这会自动导致 TOST,因为如果您为 UMP值可能相互矛盾。UMP 可能显着,但置信区间仍触及假设空间。这是不希望的。ppp

总之,如果您在“内部”使用等价测试,即不用于直接的科学报告,而仅作为某些数据挖掘算法的一部分,例如,如果存在 UMP 可能更可取。否则采取 TOST。