NLP 中有哪些 Python 库来标记印地语句子?

数据挖掘 Python 神经网络 nlp 文本挖掘 nltk
2022-02-17 10:09:47

对于英语,有诸如 NLTK、CoreNLP 之类的库,它们用于文本规范化、单词标记化和去标记化、句子拆分等。像英语一样,是否有任何库可以使用印地语脚本进行上述操作?

2个回答

iitB 为印地语文本开发了一个印度语 NLP 库。您可以查看以下链接

https://www.cse.iitb.ac.in/~anoopk/pages/softwares.html

https://github.com/anoopkunchukuttan/indic_nlp_library

很少有预训练的嵌入器,即LASER,它也涵盖了印地语。

如果您想获得类似开创性的分数,我不会费心手动完成这一切,而是采用完整的数据驱动方法。