寻找一个广义的(扩展的)词形还原器

数据挖掘 nlp nltk
2022-02-21 09:16:53

每当我对英语或德语中的复合词进行词形还原时,我都会得到一个忽略复合结构的结果,例如对于“sidekicks”,NLTK WordNet 词形还原器返回“sidekick”,对于“Eisenbahnfahrer”,NLTK German Snowball 词形还原器的结果是“eisenbahnfahr” '。然而,我需要的是从复合词中提取主要成分的东西:['side','kick'],尤其是['eisen','bahn','fahr'](或'fahren'或最后一项的任何形式)。我对分割德语的复合词特别感兴趣。

我没有找到任何类似的东西。这种 NLP 管道可能不会被称为 lemmatizer(或者它会吗?)有它的定义吗?

0个回答
没有发现任何回复~