如何量化特征的冗余?

机器算法验证 相关性 特征选择
2022-03-22 23:06:01

我使用三个功能来解决分类问题。最初,这些特征会产生布尔值,因此我可以通过查看正分类集和负分类集重叠的程度来评估它们的冗余。现在我已经扩展了这些特性以产生真实的值(分数),我想再次分析它们的冗余,但我完全不知道如何做到这一点。谁能给我一个关于如何去做的指针或想法?

我知道这个问题很模糊,那是因为我对统计学的把握不是很强。所以,如果你对我没有答案,也许你有一些问题可以帮助我更好地理解自己。

编辑:我目前正在浏览有关该主题的维基百科,我觉得我想要的是一个相关系数,但我仍然不确定这是否是正确的方法,以及许多可用系数中的哪一个是合适的。

编辑2:在布尔情况下,我首先为每个特征创建了一组样本,它是真的。然后,两个特征之间的相关性是这些集合的交集大小超过这些集合的并集大小。如果该值为 1,则它们完全是多余的,因为它们总是相同的。如果为 0,则它们永远不会相同。

1个回答

这听起来像是一个特征选择的问题,如果是这样的话,我想你想计算所有特征子集和分类输出之间的互信息。具有最高互信息的子集将是包含有关记录的结果分类的最多“信息”的特征集。

如果您只有 3 个特征,您可以在合理的时间内计算所有可能的子集,如果您的特征集变得更大,您将不得不对此进行近似计算(通常使用贪婪方法:在每一步获取具有最高 MI 的特征)。