我有 2 种不同的 ML 架构用于翻译任务,我使用 BLEU 分数对其进行评估(越高越好)
我每个运行了 9 次,得到以下分数
建筑 1 | 36.52 | 36.27 | 35.9 | 35.22 | 37.13 | 35.53 | 35.3 | 34.14 | 35
建筑 2 | 36.85 | 35.64 | 36.37 | 36.82 | 36.74 | 36.46 | 35.77 | 37.31 | 36.68
第一个平均值为35.67,第二个平均值为36.52
我想计算一个 P 值来确认(或不确认)第二个模型的优越性,alpha = 0.05
提前致谢