如何在不测试的情况下验证真实案例中的测试假设

机器算法验证 假设检验 非参数 假设
2022-03-27 06:18:54

我们知道,从形式上讲,测试的假设是无法测试的,因为如果我们根据测试结果选择要使用的测试,则得到的复合测试具有未知的属性(I 类和 II 类错误率)。我认为这就是为什么“六西格码”类型的统计方法(使用基于测试结果的决策树来选择要使用的测试)在专业统计学家中名声不佳的原因之一。

然而,对于现实世界的数据,我们经常会得到经典假设可能不成立的样本,因此我们需要以某种方式进行检查。那么,您在工作/研究中实际上是做什么的?执行非正式检查,例如查看数据的分布,并使用t-当经验分布似乎不太偏斜时进行测试?这是我看到的大部分时间都在做的事情。但是,只要我们根据这个“非正式测试”的结果做出决定,我们仍然会影响测试属性,当然如果我们不使用检查来做出决定,那么检查是没有用的,我们不应该浪费宝贵的时间去做。当然,您可以回答我,正式的测试属性被高估了,而在实践中我们不需要对此保持虔诚。这就是为什么我对你在实践中所做的事情感兴趣,而不仅仅是来自理论背景。

另一种方法是始终使用具有较少假设的测试。通常,我已经看到这种方法被认为是更喜欢非参数测试而不是参数测试,因为前者不假设测试统计数据来自由参数向量索引的一系列分布,因此应该更稳健(更少的假设)。这是真的吗?使用这种方法,我们不会在某些情况下冒险使用动力不足的测试吗?我不知道。是否有适用于应用统计的有用(可能很简单)参考,其中列出了要使用的测试/模型列表,作为经典测试(t 检验、卡方等)的更好替代品,以及何时使用它们?

2个回答

我最常看到的(并且我自己也会这样做)是查看来自同一地区的多组历史数据,用于相同的变量,并以此为基础来决定什么是合适的。当这样做时,当然应该记住,在计划的应用程序中,考虑到足够大的样本量,回归残差中与正态性的轻微偏差通常不是太大的问题。通过查看独立数据,可以避免诸如 I 类错误控制之类的测试属性混乱的问题(这在某些领域非常重要,例如出于监管目的的验证性临床试验)。正如您所说,(在适当的时候)使用参数方法的原因是效率,

就个人而言,我喜欢运行参数测试及其非参数等效项,并同时测试每个假设。如果参数测试的假设没有被大量违反,或者如果我在非参数文本中得到类似的结果,我将使用参数测试。即使违反了参数假设,如果您获得了显着的结果,您也可以对它们充满信心,因为测试因违反而被削弱。另外,老实说,很难对“A 组的平均排名得分比 B 组的平均排名得分高 12”这样的结果做出有意义的解释。