互信息的概念

数据挖掘 特征选择 互信息
2022-03-02 08:27:45

我想在iris 数据集中获取互信息以选择最佳特征,但我对互信息感到困惑。

  • 选择特征的互信息概念是什么?谁能用简单的方式解释一下?

除非你能向你的祖母解释,否则你并不真正理解某事。

艾尔伯特爱因斯坦

2个回答

互信息 (MI) 量化了在另一个变量的帮助下表达一个变量所需的信息量。如果两个变量相互独立,则它们的 MI 为零,否则大于零。MRMR 是一种基于互信息的特征选择,它使用 MI,如果一个特征具有最大的 MI 及其类标签(最大相关性)和最小的 MI 与其余特征(最小冗余),则认为该特征是有效的。这种最大相关性和最小冗余的组合将确保以更小的特征维度获得更好的性能。

简单来说,互信息 用于测量特征的相关性和冗余度,其主要目标是高精度,尽可能降低时间复杂度(计算损失)。通常采用过滤器包装器方法进行特征提取。对交叉熵信息论的良好理解将有助于理解MI概念。本文提出了一种基于(条件)互信息(以及 LNC 估计器)计算的特征子集选择算法,您可以快速运行该算法。