数据挖掘 - 完成一个匈牙利词干到一个真实的单词 - 吾爱随笔录

我对 Python 的 NLTK 包和 NLP 也很陌生（我通常在 R 中工作，但出于 NLP 的目的，也许 Python 更有能力）。

我从匈牙利新闻门户网站上删除文章，并想从中制作一个 wordcloud 来展示当前的热门新闻主题。首先，我过滤掉停用词，然后阻止剩余的词。（nltk 有匈牙利语词干分析器）所以我可以制作一个频率表，它可以作为 wordcloud 的基础。后来我的问题出现了，因为词干通常是真实单词的无意义块（而不是引理）。我想以某种方式将词干完成为一个真实的单词。

我的第一个想法是将最常见的词或最短的词（或这两条规则的某种组合）分配给词干，并在词云中表示它。

是否有更好的词干完成解决方案，或者我应该遵循不同的工作流程？