我一直在阅读这两种技术来找到单词的根源,但是我们如何更喜欢其中一种呢?
“词形还原”总是比“词干”更好吗?
我一直在阅读这两种技术来找到单词的根源,但是我们如何更喜欢其中一种呢?
“词形还原”总是比“词干”更好吗?
我会说词形还原通常是将相关词减少到共同基础的首选方法。
这个 Quora 问题是关于这个主题的一个很好的资源:在 NLP 中选择词形还原而不是词干提取是否可取?最佳答案引用了斯坦福 NLP的另一个很好的资源,它激发了为什么词形还原通常更好,词干和词形还原:
为什么词形还原更好
词干提取通常是指一种粗略的启发式过程,该过程会切断单词的结尾,以希望在大多数情况下正确地实现这一目标,并且通常包括删除派生词缀。
词形还原通常是指使用词汇和词法分析正确地做事,通常旨在仅删除屈折词尾并返回单词的基本或字典形式,这被称为引理。
但这只是一般情况,并不总是更好。词干仍然有一些优势,这取决于用例。您使用词干提取而不是词形还原的一些原因可能是:
词干提取时的一些可能的例外情况可能会更好