数据挖掘 - 词干还是字典？ - 吾爱随笔录

我最近将一个词干分析器从 Java 移植到 Python 中，用于一种高度屈折的语言。

词干分析器学习如何从单词词典及其变形形式中更改后缀。它基本上用学习的词干规则构建了一个词干表。当我移植算法时，我决定在更大的字典上训练它。结果，学习到的词干表变大了，词干准确率也提高了。

然后我认为这实际上没有意义，因为词干表的大小越来越接近字典的大小。

如果您可以简单地查找字典，为什么还要构建或训练词干算法？

我可以理解在过去存储大文件可能是一个问题，但现在呢？对于某些语言，可能没有合适的字典资源。但是还有其他原因吗？