我正在开发一个应用程序,为了处理一些数据,我需要能够识别某些选定单词的性别。我的数据是法语的。
我正在寻找的特征应该能够告诉我“les garçons”是男性复数,“chienne”是单数女性。
最容易做到这一点的词是什么?如果您有图书馆的链接,请不要犹豫。
我正在开发一个应用程序,为了处理一些数据,我需要能够识别某些选定单词的性别。我的数据是法语的。
我正在寻找的特征应该能够告诉我“les garçons”是男性复数,“chienne”是单数女性。
最容易做到这一点的词是什么?如果您有图书馆的链接,请不要犹豫。
您可以尝试应用法语 POS 标记器,例如这里建议:https ://stackoverflow.com/questions/44468300/how-to-pos-tag-a-french-sentence
请注意,POS 标记器通常在完整的句子中比孤立的单词更有效。
一种选择是 Python 中的模式库。
模式可以找到开箱即用的复数/单数:
from pattern.fr import singularize, pluralize
def singular_or_plural(token):
return 'plural' if pluralize(token) == token else 'singular'
assert singular_or_plural("garçons") == 'plural'
assert singular_or_plural("chienne") == 'singular'
模式可能用于查找性别。