为什么对单词 X 单词共现矩阵进行 T 检验重新加权如此有效?

数据挖掘 nlp 统计数据 词嵌入 斯坦福-nlp
2022-02-24 18:52:25

我正在上斯坦福 NLP 课程:http ://web.stanford.edu/class/cs224u/

作业中的一项任务是对单词 X 单词共现矩阵实现 T 检验重新加权: https ://nbviewer.jupyter.org/github/cgpotts/cs224u/blob/2019-spring/hw1_wordsim.ipynb#t-测试-重新加权-[2 分]

ttest(X,i,j)=P(X,i,j)(P(X,i,)P(X,,j))(P(X,i,)P(X,,j))

我有两个问题:

  • 这个公式背后的直觉是什么?它看起来有点像 PMI,但我不明白它在做什么。那里的 T 检验解释似乎与此任务无关。

  • 它工作得非常好(当通过这个测试评估时):原始矩阵产生 0.014 的相关分数,PMIed 矩阵 0.123 和 t 得分矩阵:0.408979。对于这样一个简单的模型,这个数字似乎好得令人难以置信。谁能带来一些关于为什么会这样的直觉/经验?

1个回答
  1. IT 与 PMI 非常相似,在这里您只需将其扩展为整个字典矩阵(整个词汇表的矩阵表示),通过减去第 i 行第 j 行中找到的单词总和的量化表示对其进行归一化,然后进行标准化。(就像使用 sklearn Standardize() 时一样,至少类似)

  2. 直觉?那么为什么 tf-idf 有效(通常作为文本量化技术),您专注于基本的 n-gram 并最小化其余部分,通过这种重新加权,您在某种程度上接近 tf-idf 表示。