我们知道,从形式上讲,测试的假设是无法测试的,因为如果我们根据测试结果选择要使用的测试,则得到的复合测试具有未知的属性(I 类和 II 类错误率)。我认为这就是为什么“六西格码”类型的统计方法(使用基于测试结果的决策树来选择要使用的测试)在专业统计学家中名声不佳的原因之一。
然而,对于现实世界的数据,我们经常会得到经典假设可能不成立的样本,因此我们需要以某种方式进行检查。那么,您在工作/研究中实际上是做什么的?执行非正式检查,例如查看数据的分布,并使用t-当经验分布似乎不太偏斜时进行测试?这是我看到的大部分时间都在做的事情。但是,只要我们根据这个“非正式测试”的结果做出决定,我们仍然会影响测试属性,当然如果我们不使用检查来做出决定,那么检查是没有用的,我们不应该浪费宝贵的时间去做。当然,您可以回答我,正式的测试属性被高估了,而在实践中我们不需要对此保持虔诚。这就是为什么我对你在实践中所做的事情感兴趣,而不仅仅是来自理论背景。
另一种方法是始终使用具有较少假设的测试。通常,我已经看到这种方法被认为是更喜欢非参数测试而不是参数测试,因为前者不假设测试统计数据来自由参数向量索引的一系列分布,因此应该更稳健(更少的假设)。这是真的吗?使用这种方法,我们不会在某些情况下冒险使用动力不足的测试吗?我不知道。是否有适用于应用统计的有用(可能很简单)参考,其中列出了要使用的测试/模型列表,作为经典测试(t 检验、卡方等)的更好替代品,以及何时使用它们?