机器算法验证 - 在配对引导程序中计算 p 值 - 吾爱随笔录

我遇到了来自伯克利 NLP 小组的一篇关于统计测试的新论文，An Empirical Investigation of Statistical Significance in NLP。

论文中有计算p值的伪代码，基本上，这个想法是样本集 $x_1,x_2,...,x_N$ 从数据中替换采样 $x$ . 然后

$\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ ，在哪里 $\delta(x_i)$ 是度量增益。

我可以理解 Koehn 的论文机器翻译评估的统计显着性测试中计算 p 值的公式，其中：

$\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N$ ，在哪里 $\delta_a$ 和 $\delta_b$ 是系统的度量增益 $a$ 和 $b$ 分别。

公式有什么解释或参考吗 $\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ . 作者还指出，如果 $\delta(x_i)$ 是 $\delta(x)$ 和 $\delta(x_i)$ 是对称的，那么上面两个公式是等价的。