我正在为二进制分类器构建新功能。新功能分为两类:分类和有序。第一个特征的一个例子是颜色red, blue, green
,第二个特征之一是整数计数1, 2, 3, ...
。
对于序数变量,通过计算 roc ( AUROC ) 曲线下的面积,我可以大致了解每个特征的好坏程度。如果 AUROC 接近 1,则意味着新特征有一个很好的阈值,可以很好地区分真假阳性。
我想对分类特征采取类似的措施。例如,我知道每个类别中 1 的比率是多少。但是,很难在许多类别级别上比较这个比率。很想听听你关于做什么的建议。
我的一个想法是用分类变量作为唯一的预测变量来拟合逻辑回归,然后计算该回归下预测概率的 AUROC。