我遇到了来自伯克利 NLP 小组的一篇关于统计测试的新论文,An Empirical Investigation of Statistical Significance in NLP。
论文中有计算p值的伪代码,基本上,这个想法是样本集从数据中替换采样. 然后
, 在哪里是度量增益。
我可以理解 Koehn 的论文机器翻译评估的统计显着性测试中计算 p 值的公式,其中:
, 在哪里和是系统的度量增益和分别。
公式有什么解释或参考吗. 作者还指出,如果是和是对称的,那么上面两个公式是等价的。