删除彼此具有高互信息的特征并删除与目标变量具有非常低的互信息的特征总是一个好主意吗?为什么或者为什么不?
特征选择技术
这样做是一个非常好的主意。问题是这样做非常困难。 特征选择是一个NP完全问题。实际意义是我们不知道任何可以仅选择所需特征的快速算法。
另一方面,省略与概念没有互信息 (MI) 的功能可能会导致您丢掉最需要的功能。在某些情况下,单个功能是无用的,但如果有更多功能,它就会变得很重要。
考虑一个概念,它是某些特征的 XOR。鉴于所有功能,这个概念是完全可以预测的。给定其中之一,您有 0 MI。
一个更真实的例子是死亡时的年龄。出生日期和死亡日期给你年龄。其中之一将具有非常低的相关性(由于预期寿命的增加)。
在实践中,省略 MI 低的特征是可以的。许多学习算法都在使用 MI,因此它们无论如何都无法使用省略的变量。至于选择本身,有很多算法,通常是启发式算法或近似算法,非常方便。
与许多事情一样,这取决于。你的变量与他们描述的领域的关系的细节将决定,即使这样,关系也可能不是直观的。当在所谓的特征提取中组合起来时,看似不同的特征可能会产生重大影响。
如果您有可用的时间和资源,自动化特征工程技术可以帮助您确定哪些特征是重要的,尤其是在测试组合特征的影响时。此外,一些方法具有嵌入式特征选择的好处,其中算法本身倾向于减少不重要变量的影响,例如:套索回归、正则化决策树、随机森林等。
这是一个很好的入门: http: //machinelearningmastery.com/an-introduction-to-feature-selection/
一个特征在存在另一个特征的情况下是多余的,或者没有足够的信息来描述目标变量,这不一定表明该特征没有用处。
事实上,这种特征在与另一个特征结合时可能会提供非常丰富的信息,尽管单独考虑时并不是很有用。
因此,在应用特征选择方法时,还应考虑特征组合。
然而,正如该问题的另一个答案所指出的,找到特征的最佳组合是一个 NP 完全问题。因此,将特征选择应用于单个特征可能是一个很好的近似值。但是,我宁愿采用贪婪的方法(有关该主题的更多信息,请参见例如https://studentnet.cs.manchester.ac.uk/pgt/COMP61011/goodProjects/Shardlow.pdf。)
编辑回答OP的评论:
a) 下表显示了一个特征的极端示例,该特征本身提供了非常丰富的信息,但与其他特征结合起来完全是多余的(特征_2)。这是一个回归问题,我们试图建立一个模型来预测“feature_1”和“feature_2”的“输出”变量。
| feature_1 | feature_2 | output |
|-----------|-----------|--------|
| 1 | 1 | 0.1 |
| 2 | 2 | 0.2 |
| 3 | 3 | 0.3 |
| 4 | 4 | 0.4 |
| 5 | 5 | 0.5 |
| 6 | 6 | 0.6 |
b) 下面的例子展示了一个特征的极端例子,它本身可能不是很丰富,但与另一个特征(feature_2)一起提供了很多信息。
| feature_1 | feature_2 | output |
|-----------|-----------|--------|
| 1 | 1 | 0.1 |
| 2 | 2 | 0.25 |
| 3 | 1 | 0.3 |
| 4 | 2 | 0.45 |
| 5 | 1 | 0.5 |
| 6 | 2 | 0.65 |