这种流行的 Bootstrap 假设检验方法是否正确?

机器算法验证 假设检验 统计学意义 p 值 引导程序 自然语言
2022-03-15 00:35:03

一篇被广泛引用的论文“机器翻译评估的统计显着性测试”建议使用 Bootstrap 来评估机器翻译跨系统差异的显着性(对于我的问题而言,该领域并不重要)。

作者描述了他们的 Bootstrap 假设检验方法如下:

给定一小部分翻译的句子,我们通过从集合中绘制带有替换的句子来重复(比如 1000 次)创建新的虚拟测试集。对于每一组,我们计算两个系统的评估指标分数。我们注意到,哪个系统性能更好。例如,如果一个系统在 95% 的时间里优于另一个系统,我们得出的结论是,它在 95% 的统计显着性上更好。我们将此方法称为配对引导重采样,因为我们比较了一对系统。

据我所知,基于 bootstrap 的统计测试(就像任何统计测试一样)首先指定零假设(例如,两个系统表现出相同的性能),然后根据该零假设抽取样本。然后我们可以测量,在这个零假设下,两个比较系统之间的差异有多不可能。

在引用的论文中,没有明确说明零假设,而且绝对不是系统表现相同。而是找到每个系统性能的置信区间,然后查看它们的交集。

我的问题是:这种方法有什么正确的理由吗?

0个回答
没有发现任何回复~