Who teaches English?
现在,在标记化、词干化之后......它给了我
Who, teach, English
在我的单词列表中,我有一个单词叫做
teacher
词干化,词干化教师给老师,词干化,词干化教给教
甚至,计算 edit_distance 也不能解决这个问题。因为 edit_distance 是 2。
现在,我该怎么做才能让 老师和教学被视为相似?同样,可能还有其他情况在末尾带有额外的“s”。有没有解决这个问题的词干分析器?有什么解决办法吗?
其他类似的例子可以是:instructor and instructs