我有一个包含 3 个类的目标变量的数据集。Target变量的值计数如下:
Class A :26000
Class B: 5000
Class C: 500
Class C prediction is most important from a business standpoint.
迄今为止,我主要完成了目标类的二元类(主要是 1:0.12)分布,其中最后,按照概率的递减顺序对预测概率进行十等分,从 D1 的最高概率开始,D2 的概率最低。
现在随着一个新班级的涌入,人口也很少,我在三个方面感到困惑。
什么算法最好?应该使用什么指标?如果适用,如何在这种情况下获得概率的十分位数?
任何潜在客户/内核/博客文章都会非常有帮助。