特征选择的信息增益和互信息的区别

数据挖掘 特征选择 互信息
2021-09-20 06:26:31

信息增益和互信息有什么区别?

在这一点上,我了解到信息增益是在随机变量和分类目标类之间计算的,而互信息是在两个随机变量之间计算的。

在随机变量和目标类之间计算互信息是否与信息相同?

1个回答

信息增益 (IG)是由于对指定数据集或随机变量执行操作而获得的熵的度量。现在,这里的熵只是我们数据集中的变化;所以变化越小,熵越小,我们的数据集之间的相关性就越大。

正如您在分类任务中所暗示的那样,互信息 (MI)是一个单边度量,而信息增益是一个双边度量。实际上,两者都衡量一个特征与特定目标类的相关程度,我经常观察到各种来源使用术语信息增益与互信息互换,因为它们是对称的。

需要注意的重要一点是,互信息仅衡量积极特征,而信息增益衡量我们数据的消极和积极特征。对于数学完整性,给定的信息增益X给出互信息由 给出YIG(X|Y) = H(x) - H(X|Y) I(X;Y)I(X;Y) = sum_x sum_y P(X,Y) log {P(X,Y)/P(X)P(Y)}

以下链接可能有助于更好地理解这些术语:

希望能帮助到你!