数据挖掘 - 单词的准确性和发送的标记化与 nltk 中的自定义标记化器 - 吾爱随笔录

数据挖掘 Python nlp nltk 标记化

2021-09-26 05:09:03

《Natural Language Processing with Python》一书是了解 NLP 基础知识的非常好的资源。其中一章介绍了使用朴素贝叶斯分类器训练“句子分割”，并提供了一种在看不见的语料库上执行句子分割的方法。

NLTK 提供word_tokenize和sent_tokenize. 创建我们自己的分词器可以帮助我们了解其工作原理，但在生产环境中，我们为什么需要自定义分词器？如果我构建了一个自定义标记器，我如何衡量它是否比 NLTK 的标记器更好？

1个回答

为什么我们需要自定义标记器？

分割是一个非常大的话题，因此没有完美的自然语言分词器。任何工具包都需要灵活，并且能够更改标记器，以便有人可以进行实验，并且可以在需求不同时替换它，或者找到针对特定问题的更好方法，这是有用且重要的。

我如何衡量 NLTK 的标记器是否更好？

每当您尝试量化性能（即：更好）时，您都需要首先定义更好的含义。完成此操作后，通常您将使用各种测量方法执行此操作，然后将结果与您对更好的定义进行比较。讨论这些主题的几个链接：

其它你可能感兴趣的问题