词形还原与词干化

数据挖掘 nlp 斯坦福-nlp
2021-09-26 13:41:04

我一直在阅读这两种技术来找到单词的根源,但是我们如何更喜欢其中一种呢?

“词形还原”总是比“词干”更好吗?

1个回答

我会说词形还原通常是将相关词减少到共同基础的首选方法。

这个 Quora 问题是关于这个主题的一个很好的资源:在 NLP 中选择词形还原而不是词干提取是否可取?最佳答案引用了斯坦福 NLP的另一个很好的资源,它激发了为什么词形还原通常更好,词干和词形还原:

为什么词形还原更好

词干提取通常是指一种粗略的启发式过程,该过程会切断单词的结尾,以希望在大多数情况下正确地实现这一目标,并且通常包括删除派生词缀。

词形还原通常是指使用词汇和词法分析正确地做事,通常旨在仅删除屈折词尾并返回单词的基本或字典形式,这被称为引理。

但这只是一般情况,并不总是更好。词干仍然有一些优势,这取决于用例。您使用词干提取而不是词形还原的一些原因可能是:

词干提取时的一些可能的例外情况可能会更好

  • 简单
  • 速度
  • 内存限制