Facebook刚刚推出了更大版本的多语言语言模型 XLM,称为 XLM-R。我的问题是:这种多语言模型是否暗示,甚至确保它们的嵌入在语言之间是可比的?也就是说,语义相关的词是否在跨语言的向量空间中靠得很近?
也许与我的问题相关的论文中最有趣的引文(第 3 页):
与 Lample 和 Conneau (2019) 不同,我们不使用语言嵌入,这使我们的模型能够更好地处理语码转换。
因为它们似乎没有区分语言,而且所有训练数据只有一个词汇表,所以我看不出这如何才能真正代表语义。使用 BPE 进一步增加了远离语义的程度,因为一种语言的形态特征(或只是简单的统计词块)可能通常在语义上与另一种语言中的相同块无关——这对于令牌本身来说可能是正确的,但对于子词信息尤其如此。
所以,简而言之:多语言语言模型中的嵌入在语义上比较两种不同语言的输入(例如单词或句子)的效果如何?