我在运行随机森林时遇到了一个问题。我使用“V1”、“V2”、“V3”来预测随机森林的二元结果(1:生病;0:否)。
我得到了非常高的准确度分数(99%),但是,当我检查混淆矩阵时,它表明没有一个生病的人被包含在测试数据集中(整个数据集的 30%)。这是混淆矩阵:
[[856 0]
[9 0]]
这个结果意味着 9 人中有 0 人被检测为生病,这引起了我的注意。可能是因为数据集不平衡(生病的人很少)?
我想看看是否有任何其他方法可以检测患病个体而不是高准确率,这意味着它具有较高的误报率是可以的,但我想抓住所有 9 个(真阳性)个体。
谢谢!