我尝试在 wordnet lemmatizers 中查找例外列表。我从http://www.nltk.org/howto/wordnet.html读到的“Morphy() 使用屈折结尾规则和例外列表来处理不同的可能性” 。你能解释一下什么是例外列表吗?谢谢你。
Wordnet 词形还原
数据挖掘
机器学习
nlp
文本挖掘
2022-02-22 19:41:16
1个回答
异常列表文件用于帮助处理器根据手册页从“不规则变形”中找到基本形式。它们意味着某些单词,当复数或不同时态时,无法通过算法处理以找到基本/根词。更多细节可以在morphy man中找到. 我不是语言处理专家,但这很可能是“违反规则”的英语单词的结果。如果你把代码想象成一个试图学习英语的人:学生学习要使用的规则(算法),然后必须记住规则的例外情况(例外列表)。不涉及结尾/共轭的过度简化的类比是拼写检查程序。算法可能会检查“i 在 e 之前,c 之后除外”,但首先必须根据例外列表检查该词,以确保它不是“奇怪”或“咖啡因”——请不要开始语言学争论这条规则,我不是在评论它的有效性/这不是我想说的重点。
其它你可能感兴趣的问题