我们是否有用于词嵌入的跨语言向量空间?
当测量apple/Pomme/mela/Lacus/苹果/りんご的相似度时,它们应该是相同的
如果有已经通过多种语言训练的神经元网络的可用互联网服务,那就太好了
我们是否有用于词嵌入的跨语言向量空间?
当测量apple/Pomme/mela/Lacus/苹果/りんご的相似度时,它们应该是相同的
如果有已经通过多种语言训练的神经元网络的可用互联网服务,那就太好了
您可以尝试阅读 Facebook 的 MUSE(多语言无监督和监督嵌入)。你可以从它的 Github或这篇文章中阅读它。它们还为某些语言提供 FastText 字典格式(.vec 文件)。
他们的原始论文展示了它如何对齐来自两种不同语言的单词向量:
对于跨语言单词表示,现在的趋势是:
请记住,您也可以分两步完成任务: 将单词翻译成参考语言(例如英语),然后使用任何单词表示模型(参考语言)来表示每个单词。
2-steps 选项也很好,因为特定语言的单词表示模型更准确,并且有一组易于使用的库用于单语言翻译(即py-translator)和表示(即Universal sentence encoder by谷歌)。