除了 Durbin-Watson,还有哪些假设检验会产生不确定的结果?

机器算法验证 假设检验 统计学意义 决策理论
2022-03-07 09:21:37

Durbin-Watson 检验统计量可能位于不确定的区域中,在该区域中不可能拒绝或无法拒绝原假设(在这种情况下,零自相关)。

还有哪些其他统计测试会产生“不确定”的结果?

对于为什么这组测试无法做出二进制“拒绝”/“未能拒绝”决定,是否有一般解释(挥手很好)?

如果有人可以在对后一个问题的回答中提到决策理论的含义,那将是一个额外的好处——存在一个额外的(in)结论类别是否意味着我们需要考虑类型 I 和类型 II 的成本以更复杂的方式出错?

2个回答

Wikipedia 文章解释说,在原假设下检验统计量的分布取决于设计矩阵——回归中使用的预测变量值的特定配置。Durbin & Watson 计算了测试统计量的下限,在给定的显着性水平下,正自相关测试必须拒绝任何设计矩阵的测试统计量,以及测试必须无法拒绝任何设计矩阵的上限“不确定区域”只是您必须计算精确临界值的区域,考虑到您的设计矩阵,以获得明确的答案。

当您只知道 t 统计量而不是样本大小†:1.645 和 6.31(对应于无限自由度且只有一个)时,类似的情况将不得不执行一个样本单尾 t 检验大小为 0.05 的测试的界限。

就决策理论而言,除了抽样变化之外,您还有一个新的不确定性来源需要考虑,但我不明白为什么不应该以与复合零假设相同的方式应用它。无论您是如何到达那里的,您都与具有未知滋扰参数的人处于相同的情况;因此,如果您需要在控制所有可能性的 I 类错误的同时做出拒绝/保留决定,请保守地拒绝(即当 Durbin-Watson 统计量低于下限或 t 统计量超过 6.31 时)。

† 或者您可能丢失了您的桌子;但可以记住标准高斯的一些临界值,以及柯西分位数函数的公式。

另一个结果可能不确定的检验示例是对一个比例进行二项式检验,此时只有比例可用,而不是样本量可用。这并非完全不切实际——我们经常看到或听到“73% 的人同意……”等形式报道不佳的说法,而分母不可用。

例如,假设我们只知道四舍五入到最接近的整数百分比的样本比例,并且我们希望测试H0π=0.5反对H1π0.5α=0.05等级。

如果我们观察到的比例是p=5% 那么观察到的比例的样本量必须至少为 19,因为119是具有最小分母的分数,将四舍五入5%. 我们不知道观察到的成功次数是否实际上是 1 / 19、1 / 20、1 / 21、1 / 22、2 / 37、2 / 38、3 / 55、5 / 1000 人中有 100 人或 50 人……但无论是哪一种,结果在α=0.05等级。

另一方面,如果我们知道样本比例是p=49%那么我们不知道观察到的成功次数是 100 次中的 49 次(在这个水平上并不显着)还是 10,000 次中的 4900 次(刚刚达到显着性)。所以在这种情况下,结果是不确定的。

请注意,对于四舍五入的百分比,没有“拒绝拒绝”区域:即使p=50%与像 100,000 次中 49,500 次成功的样本一致,这将导致拒绝,以及像 2 次试验中有 1 次成功的样本,这将导致拒绝失败H0.

与 Durbin-Watson 测试不同,我从未见过百分比显着的表格结果。这种情况更加微妙,因为临界值没有上限和下限。结果p=0%这显然是不确定的,因为在一次试验中零成功是微不足道的,但在一百万次试验中没有成功是非常重要的。我们已经看到了p=50%尚无定论,但有显着的结果,例如p=5%介于两者之间。此外,没有截断不仅仅是因为异常情况p=0%p=100%. 玩了一下,最不重要的样本对应于p=16%在 19 个样本中是 3 个成功,在这种情况下公关(X3)0.00221<0.025所以会很重要;为了p=17%我们可能在 6 次试验中取得 1 次成功,这微不足道,公关(X1)0.109>0.025所以这种情况是不确定的(因为显然有其他样本p=16%这将是重要的);为了p=18%在 11 次试验中可能有 2 次成功(微不足道,Pr(X2)0.0327>0.025) so this case is also inconclusive; but for p=19% the least significant possible sample is 3 successes in 19 trials with Pr(X3)0.0106<0.025 so this is significant again.

In fact p=24% is the highest rounded percentage below 50% to be unambiguously significant at the 5% level (its highest p-value would be for 4 successes in 17 trials and is just significant), while p=13% is the lowest non-zero result which is inconclusive (because it could correspond to 1 success in 8 trials). As can be seen from the examples above, what happens in between is more complicated! The graph below has red line at α=0.05: points below the line are unambiguously significant but those above it are inconclusive. The pattern of the p-values is such that there are not going to be single lower and upper limits on the observed percentage for the results to be unambiguously significant.

Least significant p-value of binomial test with unknown sample size

R code

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(The rounding code is snipped from this StackOverflow question.)