我最近将一个词干分析器从 Java 移植到 Python 中,用于一种高度屈折的语言。
词干分析器学习如何从单词词典及其变形形式中更改后缀。它基本上用学习的词干规则构建了一个词干表。当我移植算法时,我决定在更大的字典上训练它。结果,学习到的词干表变大了,词干准确率也提高了。
然后我认为这实际上没有意义,因为词干表的大小越来越接近字典的大小。
如果您可以简单地查找字典,为什么还要构建或训练词干算法?
我可以理解在过去存储大文件可能是一个问题,但现在呢?对于某些语言,可能没有合适的字典资源。但是还有其他原因吗?