我目前正在处理格鲁吉亚文本。有人知道我可以与Python一起使用的格鲁吉亚语词干分析器/词形还原器(或其他 NLP 工具)吗?
提前致谢!
我目前正在处理格鲁吉亚文本。有人知道我可以与Python一起使用的格鲁吉亚语词干分析器/词形还原器(或其他 NLP 工具)吗?
提前致谢!
我不知道任何格鲁吉亚词干分析器或词形还原器。但是,我认为您还有另一种选择:使用无监督的方法将单词分割成语素,并使用您对格鲁吉亚语的语言知识来设计一些启发式规则来识别其中的词干。
这种方法包括一个经过训练的模型,可以在没有任何标签的情况下(即无监督地)识别语素。最相关的 Python 包是Morfessor。您可以在这些出版物中找到它的理论基础:无监督的词素发现;级联形态的半监督学习。
此外,还有一个名为Polyglot的 Python 包,它提供了预训练的 Morfessor 模型,包括一个用于 Georgian的模型。因此,我建议您使用 Polyglot 的格鲁吉亚模型将单词分割成语素,然后手动编写一些规则来从中挑选词干。
您应该能够通过将Polyglot 文档中的这个示例从英语改成格鲁吉亚语(通过更改语言代码en
和单词列表)来评估这个想法的可行性:
from polyglot.text import Text, Word
words = ["preprocessing", "processor", "invaluable", "thankful", "crossed"]
for w in words:
w = Word(w, language="en")
print("{:<20}{}".format(w, w.morphemes))
如果绝对必要,您可以构建自己的词干分析器。这是一个相当简单的编程,但在此过程中需要对格鲁吉亚语言进行一些研究,但是网上有很多教程用于构建词干提取过程。