单词的准确性和发送的标记化与 nltk 中的自定义标记化器

数据挖掘 Python nlp nltk 标记化
2021-09-26 05:09:03

Natural Language Processing with Python》一书是了解 NLP 基础知识的非常好的资源。其中一章介绍了使用朴素贝叶斯分类器训练“句子分割”,并提供了一种在看不见的语料库上执行句子分割的方法。

NLTK 提供word_tokenizesent_tokenize. 创建我们自己的分词器可以帮助我们了解其工作原理,但在生产环境中,我们为什么需要自定义分词器?如果我构建了一个自定义标记器,我如何衡量它是否比 NLTK 的标记器更好?

1个回答

为什么我们需要自定义标记器?

分割是一个非常大的话题,因此没有完美的自然语言分词器。任何工具包都需要灵活,并且能够更改标记器,以便有人可以进行实验,并且可以在需求不同时替换它,或者找到针对特定问题的更好方法,这是有用且重要的。

我如何衡量 NLTK 的标记器是否更好?

每当您尝试量化性能(即:更好)时,您都需要首先定义更好的含义。完成此操作后,通常您将使用各种测量方法执行此操作,然后将结果与您对更好的定义进行比较。讨论这些主题的几个链接: