我们是否有用于词嵌入的跨语言向量空间?

人工智能 自然语言处理 词嵌入
2021-11-09 05:11:50

我们是否有用于词嵌入的跨语言向量空间?

当测量apple/Pomme/mela/Lacus/苹果/りんご的相似度时,它们应该是相同的

如果有已经通过多种语言训练的神经元网络的可用互联网服务,那就太好了

2个回答

您可以尝试阅读 Facebook 的 MUSE(多语言无监督和监督嵌入)。你可以从它的 Github这篇文章中阅读它。它们还为某些语言提供 FastText 字典格式(.vec 文件)。

他们的原始论文展示了它如何对齐来自两种不同语言的单词向量:

在此处输入图像描述

对于跨语言单词表示,现在的趋势是:

请记住,您也可以分两步完成任务: 将单词翻译成参考语言(例如英语),然后使用任何单词表示模型(参考语言)来表示每个单词。

2-steps 选项也很好,因为特定语言的单词表示模型更准确,并且有一组易于使用的库用于单语言翻译(py-translator)和表示(Universal sentence encoder by谷歌)。