我遇到了来自伯克利 NLP 小组的一篇关于统计测试的新论文,An Empirical Investigation of Statistical Significance in NLP。
论文中有计算p值的伪代码,基本上,这个想法是样本集从数据中替换采样. 然后
, 在哪里是度量增益。
我可以理解 Koehn 的论文机器翻译评估的统计显着性测试中计算 p 值的公式,其中:
, 在哪里和是系统的度量增益和分别。
公式有什么解释或参考吗. 作者还指出,如果是和是对称的,那么上面两个公式是等价的。
我遇到了来自伯克利 NLP 小组的一篇关于统计测试的新论文,An Empirical Investigation of Statistical Significance in NLP。
论文中有计算p值的伪代码,基本上,这个想法是样本集从数据中替换采样. 然后
, 在哪里是度量增益。
我可以理解 Koehn 的论文机器翻译评估的统计显着性测试中计算 p 值的公式,其中:
, 在哪里和是系统的度量增益和分别。
公式有什么解释或参考吗. 作者还指出,如果是和是对称的,那么上面两个公式是等价的。
据我从第 2 节中了解到,作者似乎解释了他们对引导测试的基本原理如下 -
“这采样自, 所以他们的平均值不会像原假设要求的那样为零;平均值将在附近... 解决方案是对均值进行重新居中——我们想知道多久超过好于预期。我们预计它会击败经过. 因此,我们计算有多少有殴打至少。”
作者想测试增益是否非零,因此他们将 p 值写为 , 可以重写为; 因为然后不等式的 RHS 变为, 哪一个是他们试图拒绝。