有谁知道我可以用来将单词转换为语义素数的任何库,给定一个已批准的素数列表?
换句话说,给定一个句子或一个词,我想找到在语义上最匹配输入的“主要”词的组合。
一个很好的例子是一个函数,它接收 Wikipedia 文章并输出类似于 Simple Wikipedia 的内容——它具有相同的语义内容,但将单词的使用限制为多个主要单词(在这种情况下,是更简单的单词)。
另一个例子:假设我的素数是["person", "move", "tool", "nice", "building"]。
然后我想要一些函数、库或 NLP 算法可以转换"hammer"为["building", "tool"]、和 ."car"["moving", "tool"]"friend"["nice", "person"]
我的第一个直觉是使用 word2vec:遍历素数的每个组合,并找到向量与原始单词最接近的素数组合。但是,我怀疑这不会很好地解决(部分原因是矢量加法似乎不够准确)。有没有更强大的方法来做到这一点?