使用 P 值比较模型

数据挖掘 机器学习 深度学习 统计数据
2022-03-10 09:30:48

我有 2 种不同的 ML 架构用于翻译任务,我使用 BLEU 分数对其进行评估(越高越好)

我每个运行了 9 次,得到以下分数

建筑 1 | 36.52 | 36.27 | 35.9 | 35.22 | 37.13 | 35.53 | 35.3 | 34.14 | 35

建筑 2 | 36.85 | 35.64 | 36.37 | 36.82 | 36.74 | 36.46 | 35.77 | 37.31 | 36.68

第一个平均值为35.67第二个平均值为36.52

我想计算一个 P 值来确认(或不确认)第二个模型的优越性,alpha = 0.05

提前致谢

1个回答

如果您不相信观察结果的正常性,我认为您可以应用 t 检验或 Wilcoxon 检验。

在 R 中:

A <- c(36.52 , 36.27 , 35.9 , 35.22 ,37.13 , 35.53 , 35.3 , 34.14 , 35)
B <- c(36.85 , 35.64 , 36.37 , 36.82 , 36.74,36.46 , 35.77 , 37.31 , 36.68)
wilcox.test(A,B,alternative="less",paired=T)
t.test(A,B,alternative="less",paired=T)

我已经在假设您对每个架构都进行了相同的折叠的情况下进行了配对测试。如果那是错误的,则进行非配对测试。

编辑:您可能对我几个月前发布的问题感兴趣。模型比较的交叉验证:使用相同的折叠?