识别名词性别的最简单方法是什么(法语)?

数据挖掘 nlp
2022-02-11 02:54:10

我正在开发一个应用程序,为了处理一些数据,我需要能够识别某些选定单词的性别。我的数据是法语的。

我正在寻找的特征应该能够告诉我“les garçons”是男性复数,“chienne”是单数女性。

最容易做到这一点的词是什么?如果您有图书馆的链接,请不要犹豫。

2个回答

您可以尝试应用法语 POS 标记器,例如这里建议:https ://stackoverflow.com/questions/44468300/how-to-pos-tag-a-french-sentence

请注意,POS 标记器通常在完整的句子中比孤立的单词更有效。

一种选择是 Python 中的模式库

模式可以找到开箱即用的复数/单数:

from pattern.fr import singularize, pluralize

def singular_or_plural(token):
    return 'plural' if pluralize(token) == token else 'singular'

assert singular_or_plural("garçons") == 'plural'
assert singular_or_plural("chienne") == 'singular'

模式可能用于查找性别。