我正在上斯坦福 NLP 课程:http ://web.stanford.edu/class/cs224u/
作业中的一项任务是对单词 X 单词共现矩阵实现 T 检验重新加权: https ://nbviewer.jupyter.org/github/cgpotts/cs224u/blob/2019-spring/hw1_wordsim.ipynb#t-测试-重新加权-[2 分]
我有两个问题:
这个公式背后的直觉是什么?它看起来有点像 PMI,但我不明白它在做什么。那里的 T 检验解释似乎与此任务无关。
它工作得非常好(当通过这个测试评估时):原始矩阵产生 0.014 的相关分数,PMIed 矩阵 0.123 和 t 得分矩阵:0.408979。对于这样一个简单的模型,这个数字似乎好得令人难以置信。谁能带来一些关于为什么会这样的直觉/经验?