我正在为一项作业制作垃圾邮件过滤器。我读过的一篇论文中概述的步骤之一是找到文本中所有单词的互信息,然后选择具有最高 MI 的 500 左右。
论文(和其他地方)中给出的等式是:
在哪里是一个特征并且是一类。
论文中并不清楚,但将是一个词和将是垃圾邮件或非垃圾邮件。
我可以清楚我应该做的计算吗?我认为“伟哥”一词如下:
在这种情况下,要么是“伟哥”一词在所有垃圾邮件中出现的频率除以垃圾邮件中的字数,要么是非垃圾邮件中的相同。
是该词在垃圾邮件和火腿电子邮件中出现的概率。
是类的先验。
所以基本上我们正在做两次计算(一个用于垃圾邮件,一个用于火腿)并将它们加在一起。
你认为这是对的吗?
我的理解是,互信息就像为一个特征找到信息增益。这是正确的吗?
希望这是有道理的。提前谢谢了。