关于词嵌入的概念,Skip-Gram 方法旨在计算给定邻域的词的概率。我不明白其背后的原理,因为可以通过直接查看共现矩阵来推断此信息。
一般来说,我无法理解那些旨在从原始共现矩阵中捕获尽可能多的相关信息的方法。直接处理同现矩阵不是更容易吗?
非常感谢您提前。
关于词嵌入的概念,Skip-Gram 方法旨在计算给定邻域的词的概率。我不明白其背后的原理,因为可以通过直接查看共现矩阵来推断此信息。
一般来说,我无法理解那些旨在从原始共现矩阵中捕获尽可能多的相关信息的方法。直接处理同现矩阵不是更容易吗?
非常感谢您提前。
基本上,skip-gram 旨在计算给定单词的上下文概率(CBOW 则相反)。但是,它不是简单地学习共现矩阵,而是在低维空间中压缩信息(例如 300 用于 100000 原始维度)。通过这样做,它可以学习单词的连续低维表示。
证明word2vec 实际上分解了一个词上下文逐点互信息矩阵(接近共现矩阵)。我认为这篇文章可能会让您更好地了解底层流程。