我使用三个功能来解决分类问题。最初,这些特征会产生布尔值,因此我可以通过查看正分类集和负分类集重叠的程度来评估它们的冗余。现在我已经扩展了这些特性以产生真实的值(分数),我想再次分析它们的冗余,但我完全不知道如何做到这一点。谁能给我一个关于如何去做的指针或想法?
我知道这个问题很模糊,那是因为我对统计学的把握不是很强。所以,如果你对我没有答案,也许你有一些问题可以帮助我更好地理解自己。
编辑:我目前正在浏览有关该主题的维基百科,我觉得我想要的是一个相关系数,但我仍然不确定这是否是正确的方法,以及许多可用系数中的哪一个是合适的。
编辑2:在布尔情况下,我首先为每个特征创建了一组样本,它是真的。然后,两个特征之间的相关性是这些集合的交集大小超过这些集合的并集大小。如果该值为 1,则它们完全是多余的,因为它们总是相同的。如果为 0,则它们永远不会相同。