我正在研究一个具有严重类不平衡的分类问题(此时它更像是异常检测,因为多数类构成了数据集的 97.5%)。我尝试了几种方法来开始,但没有运气(我曾一度陷入困境)。所以我开始质疑这些功能本身......
我所做的是使用sklearn的mutual_info_classif计算特征与目标类的互信息,并按互信息的降序对特征进行排序。结果对我来说似乎很奇怪(或者考虑到糟糕的结果可能并不令人惊讶),因为我从任何功能中获得的最高互信息是 0.00631345772217。这是否意味着我的数据毫无价值,我可能应该寻找更多数据?
