我有一些代码在一小段文本中识别出感兴趣的 ngram,然后在更大的文本中搜索 ngram,以提供上下文中使用的术语的片段。一个 ngram 可能是unordered numerical set
. 现在,如果我找不到unordered numerical set
,我开始从左侧修剪字符串以查看是否numerical set
在较大的文本中可用。
在我从左边修剪之前,我想做的是看看任何单词是否有反义词,比如ordered
for unordered
。这是因为我的 ngram 可能以一种方式定义,但使用相反。
是否有一个已知的列表或其他方式来找出我是否可以尝试一组单词的高度相关的反义词?
例如,我想我可以编写一些查找前缀的正则表达式,例如“un”或“dis”,并查看删除这些前缀产生的单词是否是有效的英文单词。这似乎已经解决了,所以在我尝试创建任何东西之前,我想找出可能已经存在的东西。
我目前在余下的处理中使用 Gensim、NLTK 和 Word2Vec 的 Python,如果它重要的话。