我正在使用 fastText 对文本进行分类,fastText是一个 word2vec 库,它还可以为字符级 n-gram 创建向量,并且我已经成功训练了一个二进制分类器。
现在我想看看哪些词或子词 n-gram 对这两个类的类最有预测性(例如,如果分类器看到一个词forest或一个子词,res那么这可能是文档具有标签的强烈指示Nature,但如果它看到单词“and”,那么这对于这个分类任务可能不是很有信息)。
因此,我想这个问题可以表述为:
给定表示单词和子词的向量以及经过训练的 fastText 分类器,获得例如前 10 个信息量最大的词和子词列表以决定样本属于哪个类的最佳方法是什么?
尽管如果您能提出考虑我当前使用 fastText 设置的具体建议,我会很高兴,但我也愿意接受更通用的解决方案建议。
谢谢