我正在比较不同的特征选择/特征排名技术。两种正在审查的技术是决策树中使用的互信息 (MI) 和信息增益 (IG),即 Kullback-Leibler 散度。
我的数据(类和特性)都是二进制的。
我能找到的所有资料表明,MI 和 IG 基本上是“同一枚硬币的两个面”,即可以通过数学运算将一个转换为另一个。(例如[来源 1,来源 2])
然而,当我使用这两种度量对我的特征进行排名时,它们不会产生相同的排名顺序。但是如果这两个度量是等价的,那么排名不应该是一样的吗?
有人可以帮我理解为什么排名不同吗?
提醒一下I[X;Y]I[X;Y]是对称的,但是KL(P∥Q)KL(P‖Q)不是。。看看你是否不计算。I[X;Y]=KL(P(X,Y)∥P(X)P(Y))I[X;Y]=KL(P(X,Y)‖P(X)P(Y))KL(P(X)∥P(Y))KL(P(X)‖P(Y))