我很难理解这句话:
第一个提出的架构类似于前馈 NNLM,其中去除了非线性隐藏层,所有单词共享投影层(不仅仅是投影矩阵);因此,所有单词都被投影到相同的位置(它们的向量被平均)。
什么是投影层与投影矩阵?说所有单词都投射到同一个位置是什么意思?为什么这意味着它们的向量是平均的?
该句子是向量空间中单词表示的有效估计(Mikolov et al. 2013)第 3.1 节的第一个。
我很难理解这句话:
第一个提出的架构类似于前馈 NNLM,其中去除了非线性隐藏层,所有单词共享投影层(不仅仅是投影矩阵);因此,所有单词都被投影到相同的位置(它们的向量被平均)。
什么是投影层与投影矩阵?说所有单词都投射到同一个位置是什么意思?为什么这意味着它们的向量是平均的?
该句子是向量空间中单词表示的有效估计(Mikolov et al. 2013)第 3.1 节的第一个。
当我浏览有关CBOW问题并偶然发现这一点时,通过查看 NNLM 模型(Bengio 等人, 2003):
如果将此与 Mikolov 的模型[s](显示在此问题的替代答案中)进行比较,则引用的句子(在问题中)意味着 Mikolov 删除了上面显示的 Bengio 模型中看到的(非线性!)层。并且 Mikolov 的第一个(也是唯一的)隐藏层,而不是为每个单词使用单独的向量,只使用一个向量来总结“单词参数”,然后这些总和得到平均。所以这解释了最后一个问题(“向量被平均是什么意思?”)。这些词被“投影到相同的位置”,因为分配给各个输入词的权重在 Mikolov 模型中被求和并取平均值。因此,他的投影层与 Bengio 的第一个隐藏层(又名投影矩阵)不同,丢失了所有位置信息——从而回答了第二个问题(“所有单词都被投影到同一位置是什么意思?”)。所以 Mikolov 的模型[s] 保留了“词参数”(输入权重矩阵),移除了投影矩阵和层,并用“简单”投影层替换了两者。
补充一下,“仅作记录”:真正令人兴奋的部分是 Mikolov 解决在 Bengio 的图像中您看到短语“这里计算最多”的部分的方法。Bengio 在后来的一篇论文(Morin & Bengio 2005)中尝试通过做一些称为分层softmax(而不是仅仅使用 softmax)的方法来减轻这个问题。但 Mikolov 的负二次抽样策略更进一步:他根本不计算所有“错误”单词(或 Huffman 编码,正如 Bengio 在 2005 年提出的)的负对数似然,而只是计算一个非常负样本的小样本,如果有足够的计算和巧妙的概率分布,效果非常好。而第二个也是更大的贡献,自然是,加性“组合性”(“man + king = woman + ?” with answer queen),它只适用于他的 Skip-Gram 模型,大致可以理解为采用 Bengio 的模型,应用 Mikolov 建议的更改(即您的问题中引用的短语),然后反转整个过程。也就是说,改为从输出词(现在用作输入)中猜测周围的词。