我对 Python 的 NLTK 包和 NLP 也很陌生(我通常在 R 中工作,但出于 NLP 的目的,也许 Python 更有能力)。
我从匈牙利新闻门户网站上删除文章,并想从中制作一个 wordcloud 来展示当前的热门新闻主题。首先,我过滤掉停用词,然后阻止剩余的词。(nltk 有匈牙利语词干分析器)所以我可以制作一个频率表,它可以作为 wordcloud 的基础。后来我的问题出现了,因为词干通常是真实单词的无意义块(而不是引理)。我想以某种方式将词干完成为一个真实的单词。
我的第一个想法是将最常见的词或最短的词(或这两条规则的某种组合)分配给词干,并在词云中表示它。
是否有更好的词干完成解决方案,或者我应该遵循不同的工作流程?