所以我知道有很多方法可以将句子分类。就像情绪分析(正面、负面、中性)、垃圾邮件(垃圾邮件,不是垃圾邮件)等。我想问的是我如何找到对分类最负责的词。例如:sad-negative, happy-positive, the-no information, are-no information。
那么如何找到影响分类的单词呢?
所以我知道有很多方法可以将句子分类。就像情绪分析(正面、负面、中性)、垃圾邮件(垃圾邮件,不是垃圾邮件)等。我想问的是我如何找到对分类最负责的词。例如:sad-negative, happy-positive, the-no information, are-no information。
那么如何找到影响分类的单词呢?
首先,让我们澄清一下,证明因果关系是相当困难的。因此,您主要需要显示相关性。此外,对于文本分类,每个单词的影响不是线性的。每个单词都会影响句子相对于其他单词的含义,反之亦然,因此,您需要牢记这一点。
话虽如此,有几种方法可以查看单词对分类的影响:
如果您有多个班级,您可以查看某些单词在每个班级中出现的频率。如果“好”这个词只出现在积极的句子中,那么可以肯定地认为它具有很大的影响。
这种方法的好处是与模型无关。
如果您使用词袋表示作为输入,您可以查看每个特征的存在/不存在对结果的影响程度。例如,假设您可以以 80% 的准确率对正面句子进行分类,并将所有单词作为特征。现在,尝试通过删除某些单词再次对句子进行分类。如果您从句子中删除“好”一词,您可以查看性能如何变化。
或者,您可以做相反的事情并尝试简单地对每个单词进行分类。如果您将“好”一词归类为正面,则意味着它可能是一个影响句子为正面的词。如果您的模型提供了置信度,您可以使用它来了解该词为句子带来了多少信息。
注意机制将能够告诉您输入的哪一部分对结果的影响最大。如果您使用顺序模型,这会更好