词干还是字典?

数据挖掘 nlp
2021-09-30 13:58:57

我最近将一个词干分析器从 Java 移植到 Python 中,用于一种高度屈折的语言。

词干分析器学习如何从单词词典及其变形形式中更改后缀。它基本上用学习的词干规则构建了一个词干表。当我移植算法时,我决定在更大的字典上训练它。结果,学习到的词干表变大了,词干准确率也提高了。

然后我认为这实际上没有意义,因为词干表的大小越来越接近字典的大小。

如果您可以简单地查找字典,为什么还要构建或训练词干算法?

我可以理解在过去存储大文件可能是一个问题,但现在呢?对于某些语言,可能没有合适的字典资源。但是还有其他原因吗?

1个回答

还有一个原因:字典中没有出现的单词。当然,字典方法将正确地提取字典中已知的所有形式,并且根据语言的不同,这确实可能导致更好的准确性。然而,字典方法不能对未知单词做任何事情,而通用词干分析器可以尝试应用其通用规则。这对于非常特定领域的文本(例如医学)尤其重要,这些文本通常包含一般字典中没有的技术词,或者最近的用户生成文本,例如人们可能使用新词或词的社交媒体帖子借用并有时从另一种语言转换而来。