如您所知,Brier 分数衡量校准并且是均方误差,乙¯=n− 1∑ (是的^一世-是的一世)2,在预测之间,是的^,和回应,是的. 由于 Brier 分数是平均值,因此比较两个 Brier 分数基本上是平均值的比较,您可以随心所欲地使用它。我将提出两件事并指出第三件事:
一种选择:进行 t 检验
当我听到均值比较时,我的第一反应是进行 t 检验。平方误差通常可能不是正态分布的,因此这可能不是最强大的测试。在你的极端例子中似乎很好。p1下面我检验MSE 大于的备择假设p2:
y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101
squares_1 <- (p1 - y)^2
squares_2 <- (p2 - y)^2
t.test(squares_1, squares_2, paired=T, alternative="greater")
#>
#> Paired t-test
#>
#> data: squares_1 and squares_2
#> t = 4.8826, df = 99, p-value = 2.01e-06
#> alternative hypothesis: true difference in means is greater than 0
#> 95 percent confidence interval:
#> 0.1769769 Inf
#> sample estimates:
#> mean of the differences
#> 0.2681719
我们得到一个超低的 p 值。我进行了配对 t 检验,作为观察观察,两组预测与相同的结果进行比较。
另一种选择:置换测试
如果平方误差的分布让您担心,也许您不想做出 t 检验的假设。例如,您可以使用置换检验来检验相同的假设:
library(plyr)
observed <- mean(squares_1) - mean(squares_2)
permutations <- raply(500000, {
swap <- sample(c(T, F), 100, replace=T)
one <- squares_1
one[swap] <- squares_2[swap]
two <- squares_2
two[swap] <- squares_1[swap]
mean(one) - mean(two)
})
hist(permutations, prob=T, nclass=60, xlim=c(-.4, .4))
abline(v=observed, col="red")

# p-value. I add 1 so that the p-value doesn't come out 0
(sum(permutations > observed) + 1)/(length(permutations) + 1)
#> [1] 1.999996e-06
这两个测试似乎非常吻合。
其他一些答案
快速搜索该站点上的 MSE 比较指向Diebold-Mariano 测试(请参阅此处的答案和此处的评论)。这看起来只是Wald 检验,我猜它的性能类似于上面的 t 检验。