文本预处理的最佳工具,包括标记化、词形还原、停用词去除、特征向量提取?

数据挖掘 nlp 工具
2022-03-03 20:28:40

对于文本处理,有很多工具,例如 CoreNLP、SpaCy、NLTK、textblob 等。每种工具都提供不同的预处理功能套件,人们为不同的任务推荐不同的工具,例如用于标记化的 NLTK 等。

您会推荐哪个工具来执行所有这些任务?

1个回答

在这些方面比较两个库或工具在某种程度上取决于意见。有些人喜欢NLTK做几乎所有的任务。spacy也获得了相当的声誉。但是什么对你更好取决于你想做什么。根据我的个人经验,我发现NLTK除了gensim库之外,我还需要完成所有自然语言处理任务。