在配对引导程序中计算 p 值

机器算法验证 假设检验 引导程序 p 值
2022-03-18 16:41:50

我遇到了来自伯克利 NLP 小组的一篇关于统计测试的新论文,An Empirical Investigation of Statistical Significance in NLP

论文中有计算p值的伪代码,基本上,这个想法是样本集x1,x2,...,xN从数据中替换采样x. 然后

p-value=count(δ(xi)>2δ(x))/N, 在哪里δ(xi)是度量增益。

我可以理解 Koehn 的论文机器翻译评估的统计显着性测试中计算 p 值的公式,其中:

p-value=count(δa(xi)<δb(xi))/N, 在哪里δaδb是系统的度量增益ab分别。

公式有什么解释或参考吗p-value=count(δ(xi)>2δ(x))/N. 作者还指出,如果δ(xi)δ(x)δ(xi)是对称的,那么上面两个公式是等价的。

1个回答

据我从第 2 节中了解到,作者似乎解释了他们对引导测试的基本原理如下 -

“这xi采样自x, 所以他们的平均值δ(xi)不会像原假设要求的那样为零;平均值将在附近δ(x)... 解决方案是对均值进行重新居中——我们想知道多久A超过δ(x)好于预期。我们预计它会击败B经过δ(x). 因此,我们计算有多少xiA殴打B至少δ(x)。”

作者想测试增益是否非零,因此他们将 p 值写为 δ(xi)<2δ(x), 可以重写为0<2δ(x)δ(xi); 因为E[δ(xi)]=δ(x)然后不等式的 RHS 变为δ(x), 哪一个是H0他们试图拒绝。