每当我对英语或德语中的复合词进行词形还原时,我都会得到一个忽略复合结构的结果,例如对于“sidekicks”,NLTK WordNet 词形还原器返回“sidekick”,对于“Eisenbahnfahrer”,NLTK German Snowball 词形还原器的结果是“eisenbahnfahr” '。然而,我需要的是从复合词中提取主要成分的东西:['side','kick'],尤其是['eisen','bahn','fahr'](或'fahren'或最后一项的任何形式)。我对分割德语的复合词特别感兴趣。
我没有找到任何类似的东西。这种 NLP 管道可能不会被称为 lemmatizer(或者它会吗?)有它的定义吗?