数据挖掘 - 为什么对单词 X 单词共现矩阵进行 T 检验重新加权如此有效？ - 吾爱随笔录 - 问答

为什么对单词 X 单词共现矩阵进行 T 检验重新加权如此有效？

数据挖掘 nlp 统计数据词嵌入斯坦福-nlp

2022-02-24 18:52:25

我正在上斯坦福 NLP 课程：http ://web.stanford.edu/class/cs224u/

作业中的一项任务是对单词 X 单词共现矩阵实现 T 检验重新加权： https ://nbviewer.jupyter.org/github/cgpotts/cs224u/blob/2019-spring/hw1_wordsim.ipynb#t-测试-重新加权-[2 分]

ttest (X, i, j) = \frac{P (X, i, j) - (P (X, i, *) P (X, *, j))}{\sqrt{(P (X, i, *) P (X, *, j))}}

$\textbf{ttest}(X, i, j) = \frac{ P(X, i, j) - \big(P(X, i, *)P(X, *, j)\big) }{ \sqrt{(P(X, i, *)P(X, *, j))} }$

我有两个问题：

这个公式背后的直觉是什么？它看起来有点像 PMI，但我不明白它在做什么。那里的 T 检验解释似乎与此任务无关。
它工作得非常好（当通过这个测试评估时）：原始矩阵产生 0.014 的相关分数，PMIed 矩阵 0.123 和 t 得分矩阵：0.408979。对于这样一个简单的模型，这个数字似乎好得令人难以置信。谁能带来一些关于为什么会这样的直觉/经验？

1个回答

IT 与 PMI 非常相似，在这里您只需将其扩展为整个字典矩阵（整个词汇表的矩阵表示），通过减去第 i 行第 j 行中找到的单词总和的量化表示对其进行归一化，然后进行标准化。（就像使用 sklearn Standardize() 时一样，至少类似）
直觉？那么为什么 tf-idf 有效（通常作为文本量化技术），您专注于基本的 n-gram 并最小化其余部分，通过这种重新加权，您在某种程度上接近 tf-idf 表示。

其它你可能感兴趣的问题

上一篇GAN 中的鉴别器与生成器应该有多大不同下一篇镶木地板文件是否被压缩？