神经网络语言模型 - 预测中心词还是上下文词右边的词?
在 Bengio 的论文中,该模型通过 n 个词预测下一个词的概率,例如预测“book”、“car”等的概率,通过它之前的 n 个词,如“this”、“is”、“a”, “好的”。然而,在 NLP 中的标记问题中,就像 Collobert 的论文中的那些问题一样,一个常见的设置,即窗口模型,是通过周围的词对中心词进行标记预测。
是否有一些关于神经网络语言模型的研究,用于通过周围的词来预测中心词的概率,比如通过上下文词“this”、“is”来预测中心词的概率,如“a”、“the”(在左)和“好”、“车”(右)?