特定语言的通用句子编码器?

数据挖掘 机器学习 Python nlp 张量流
2022-02-24 01:03:03

我正在制作一个使用编码文章(多个句子)的模型。我找到了Tensorflow 的Universal Sentence Encoder,但它说它只适用于英语。具体来说,我正在寻找马其顿语的编码器。我可以使用这个编码器吗?如果没有,是否有可以理解马其顿语的多语言模型?

1个回答

您链接的这个通用句子编码器专门针对英语数据进行了训练,因此它在任何其他语言上的效果都非常差(需要明确的是,它可能会产生垃圾)。

不幸的是,您不太可能找到类似的 Macedonian 预训练模型。您必须根据马其顿数据训练自己的模型,并且需要大量数据。顺便说一句,这就是为什么这些预训练模型通常只接受英语训练的主要原因,因为有很多英文文本可用。如果你想试试这个,有一个马其顿语料库作为Universal Dependencies 项目的一部分。