统计假设检验的作者是如何得出他们的统计数据的?
有多种方法可以识别测试统计数据,具体取决于具体情况。在一些合理的假设下,尝试确定您认为重要的替代方案并尝试获得一些力量来对抗这些替代方案非常重要。
例如,如果您有一个与总体均值有关的假设(实际上,让我们简化并考虑单样本检验),例如,基于样本均值的统计量似乎是统计量的明显选择,因为它往往在 null 和替代项下表现不同。但是(例如),如果您正在寻找拉普拉斯/双指数族()的移位替代方案,则基于样本中位数的东西将是更好的选择对均值变化的测试,而不是基于样本均值的测试。DExp(μ,τ)
如果您有一个特定的参数模型(基于某些特定的分布族),通常至少考虑一个似然比检验,因为它们对于大样本具有许多有吸引力的特性。
在您尝试从头开始设计测试的许多情况下,测试统计量将基于一个关键数量。单样本 t 检验(以及您之前可能见过的许多其他检验)中的检验统计量是一个关键量。
给定一个特定的问题,理想的(如果这完全可以根据客观的理由定义)统计应该是什么总是显而易见的?
一点也不。例如,考虑一个针对 ominibus 替代方案的一般正态性测试。有许多方法可以衡量偏离正态性的情况(已经提出了数十种此类测试),并且在典型的样本量下,没有一种方法对所有替代方案都最有效。
在尝试为这样的情况设计测试时,需要一定的创造力才能提出一个对您最感兴趣的选择具有强大能力的选择。
似乎上面第 2 步中列出的这两个要求过于宽泛,可以设计许多不同的统计数据来检验相同的假设。
确实。如果您做出一些参数假设(假设数据来自某个分布族,然后使您的假设与它的一个或多个参数相关),那么可能会对所有此类情况进行最佳测试(特别是,统一最强大的测试),但即使你的参数假设更像是一个粗略的猜测,那么对这个假设的一些鲁棒性的渴望可能会改变很多事情。
例如(再次,简单地对位置偏移进行一个样本测试),如果我从正常人群中抽样,那么 t 检验将是最好的。但是,假设我认为这可能并不完全正常,除此之外,其他一些过程可能会产生少量污染,并且具有中等程度的重尾,然后是更强大的东西(甚至可能是基于等级的替代方案,例如已签名的rank test)可能在各种此类情况下表现更好。