对非英语(僧伽罗语/泰米尔语)文本进行分类的最佳方法是什么?目前我使用Fasttext。有没有更好的选择?
我想将用户问题分类为聊天机器人意图。因此,可能有许多目标类。
对非英语(僧伽罗语/泰米尔语)文本进行分类的最佳方法是什么?目前我使用Fasttext。有没有更好的选择?
我想将用户问题分类为聊天机器人意图。因此,可能有许多目标类。
据我所知,最好的方法是使用预训练的嵌入器。Embedder 将您的文本编码到与语言无关的潜在空间中。您输入文本并获得固定长度的数值向量作为输出。您可以使用潜在空间编码作为特征向量,您可以使用它来训练判别模型。它们也非常适合像SMOTE或那样重新采样ADASYN。
前段时间 Facebook 发布了一款名为LASER. 你可以在这里阅读。它也支持僧伽罗语和泰米尔语。这是一个 github 存储库。上也有非官方分发pypi。它替代了用于标记化和 BPE 编码的内部工具。为了方便起见,我一直在使用这个发行版,我可以确认它工作得很好。这是一个存储库。
我还建议考虑嵌入滥用。它涵盖了很多语言,这意味着您可以训练您的模型,例如英语,并且预测将适用于泰米尔语开箱即用!
自然语言是超维空间,大多数开创性模型都使用编码器。据我所知,这是任何语言的首选方法。