在查看协方差矩阵的特征向量时,我们得到最大方差的方向(第一个特征向量是数据变化最大的方向等);这称为主成分分析(PCA)。
我想知道查看互信息矩阵的特征向量/值意味着什么,它们会指向最大熵的方向吗?
在查看协方差矩阵的特征向量时,我们得到最大方差的方向(第一个特征向量是数据变化最大的方向等);这称为主成分分析(PCA)。
我想知道查看互信息矩阵的特征向量/值意味着什么,它们会指向最大熵的方向吗?
虽然这不是一个直接的答案(因为它是关于逐点互信息的),但请查看将word2vec与PMI 矩阵的奇异值分解相关的论文:
我们分析了带有负采样(SGNS)的skip-gram,这是Mikolov等人引入的一种词嵌入方法,并表明它隐式分解了一个词上下文矩阵,其单元格是各自的点互信息(PMI)单词和上下文对,由一个全局常数移动。我们发现另一种嵌入方法 NCE 隐式分解了一个相似的矩阵,其中每个单元格是给定上下文的单词的(移位的)对数条件概率。我们表明,使用稀疏的 Shifted Positive PMI 词上下文矩阵来表示词可以提高两个词相似性任务和两个类比任务之一的结果。当首选密集的低维向量时,使用 SVD 进行精确分解可以获得至少与 SGNS 的单词相似性任务解决方案一样好的解决方案。在类比问题上,SGNS 仍然优于 SVD。我们推测这源于 SGNS 分解的加权性质。