机器算法验证 - 除了 Durbin-Watson，还有哪些假设检验会产生不确定的结果？ - 吾爱随笔录

除了 Durbin-Watson，还有哪些假设检验会产生不确定的结果？

机器算法验证假设检验统计学意义决策理论

2022-03-07 09:21:37

Durbin-Watson 检验统计量可能位于不确定的区域中，在该区域中不可能拒绝或无法拒绝原假设（在这种情况下，零自相关）。

还有哪些其他统计测试会产生“不确定”的结果？

对于为什么这组测试无法做出二进制“拒绝”/“未能拒绝”决定，是否有一般解释（挥手很好）？

如果有人可以在对后一个问题的回答中提到决策理论的含义，那将是一个额外的好处——存在一个额外的（in）结论类别是否意味着我们需要考虑类型 I 和类型 II 的成本以更复杂的方式出错？

2个回答

Wikipedia 文章解释说，在原假设下检验统计量的分布取决于设计矩阵——回归中使用的预测变量值的特定配置。Durbin & Watson 计算了测试统计量的下限，在给定的显着性水平下，正自相关测试必须拒绝任何设计矩阵的测试统计量，以及测试必须无法拒绝任何设计矩阵的上限。“不确定区域”只是您必须计算精确临界值的区域，考虑到您的设计矩阵，以获得明确的答案。

^{当您只知道 t 统计量而不是样本大小†}：1.645 和 6.31（对应于无限自由度且只有一个）时，类似的情况将不得不执行一个样本单尾 t 检验大小为 0.05 的测试的界限。

就决策理论而言，除了抽样变化之外，您还有一个新的不确定性来源需要考虑，但我不明白为什么不应该以与复合零假设相同的方式应用它。无论您是如何到达那里的，您都与具有未知滋扰参数的人处于相同的情况；因此，如果您需要在控制所有可能性的 I 类错误的同时做出拒绝/保留决定，请保守地拒绝（即当 Durbin-Watson 统计量低于下限或 t 统计量超过 6.31 时）。

† 或者您可能丢失了您的桌子；但可以记住标准高斯的一些临界值，以及柯西分位数函数的公式。

另一个结果可能不确定的检验示例是对一个比例进行二项式检验，此时只有比例可用，而不是样本量可用。这并非完全不切实际——我们经常看到或听到“73% 的人同意……”等形式报道不佳的说法，而分母不可用。

例如，假设我们只知道四舍五入到最接近的整数百分比的样本比例，并且我们希望测试 $H_0: \pi = 0.5$ 反对 $H_1: \pi \neq 0.5$ 在 $\alpha = 0.05$ 等级。

如果我们观察到的比例是 $p=5\%$ 那么观察到的比例的样本量必须至少为 19，因为 $\frac{1}{19}$ 是具有最小分母的分数，将四舍五入 $5\%$ . 我们不知道观察到的成功次数是否实际上是 1 / 19、1 / 20、1 / 21、1 / 22、2 / 37、2 / 38、3 / 55、5 / 1000 人中有 100 人或 50 人……但无论是哪一种，结果在 $\alpha = 0.05$ 等级。

另一方面，如果我们知道样本比例是 $p = 49\%$ 那么我们不知道观察到的成功次数是 100 次中的 49 次（在这个水平上并不显着）还是 10,000 次中的 4900 次（刚刚达到显着性）。所以在这种情况下，结果是不确定的。

请注意，对于四舍五入的百分比，没有“拒绝拒绝”区域：即使 $p=50\%$ 与像 100,000 次中 49,500 次成功的样本一致，这将导致拒绝，以及像 2 次试验中有 1 次成功的样本，这将导致拒绝失败 $H_0$ .

与 Durbin-Watson 测试不同，我从未见过百分比显着的表格结果。这种情况更加微妙，因为临界值没有上限和下限。结果 $p=0\%$ 这显然是不确定的，因为在一次试验中零成功是微不足道的，但在一百万次试验中没有成功是非常重要的。我们已经看到了 $p=50\%$ 尚无定论，但有显着的结果，例如 $p=5\%$ 介于两者之间。此外，没有截断不仅仅是因为异常情况 $p=0\%$ 和 $p=100\%$ . 玩了一下，最不重要的样本对应于 $p=16\%$ 在 19 个样本中是 3 个成功，在这种情况下 $\Pr(X \leq 3) \approx 0.00221 < 0.025$ 所以会很重要；为了 $p=17\%$ 我们可能在 6 次试验中取得 1 次成功，这微不足道， $\Pr(X \leq 1) \approx 0.109 > 0.025$ 所以这种情况是不确定的（因为显然有其他样本 $p=16\%$ 这将是重要的）；为了 $p=18\%$ 在 11 次试验中可能有 2 次成功（微不足道， $\Pr(X \leq 2) \approx 0.0327 > 0.025$ ) so this case is also inconclusive; but for $p=19\%$ the least significant possible sample is 3 successes in 19 trials with $\Pr(X \leq 3) \approx 0.0106 < 0.025$ so this is significant again.

In fact $p=24\%$ is the highest rounded percentage below 50% to be unambiguously significant at the 5% level (its highest p-value would be for 4 successes in 17 trials and is just significant), while $p=13\%$ is the lowest non-zero result which is inconclusive (because it could correspond to 1 success in 8 trials). As can be seen from the examples above, what happens in between is more complicated! The graph below has red line at $\alpha=0.05$ : points below the line are unambiguously significant but those above it are inconclusive. The pattern of the p-values is such that there are not going to be single lower and upper limits on the observed percentage for the results to be unambiguously significant.

Least significant p-value of binomial test with unknown sample size

R code

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(The rounding code is snipped from this StackOverflow question.)

其它你可能感兴趣的问题

上一篇贝叶斯优化还是梯度下降？下一篇何时使用（和不使用）三法则