我有 50,000 个样本。其中 23,000 个属于所需类别. 我可以牺牲被分类为属于所需类的实例的数量. 对我来说,在所需的类中获得 7000 个实例就足够了, 前提是这些实例中的大多数被归类为真正属于想要的班级. 我怎样才能做到这一点?
以下是实例被完美分类的情况下的混淆矩阵。
[[23000 0]
[ 0 27000]]
但是不太可能得到这个混淆矩阵,所以我对下面的混淆矩阵还是比较满意的。
[[7000 16000]
[ 500 26500]]
我目前正在使用sklearn
图书馆。我主要使用基于决策树的算法,因为它们的计算速度非常快。