不平衡问题的一些可能的分类指标是什么?由于分布的偏度,准确度值没有那么有意义。例如,如果我将所有类预测为 1 类,我仍然可以获得 70% 的准确率。
不平衡多类分类问题的最佳度量是什么?
机器算法验证
分类
不平衡类
公制
2022-03-02 04:11:43
2个回答
我很抱歉,刚刚看到这个问题有多老 - 为什么它在列表的顶部?
答案(在信息有限的情况下最好):
数据是什么类型的?
当您的分类器输出分数或概率时,您可能永远不应该使用检测精度,或者肯定不使用。你是怎么分类的?在评估性能时,分类算法的底层损失函数通常是一个很好的衡量标准。
我不会倾向于 1~vs~all 分析方法,例如精确召回曲线。它不会让你走得太远——你必须针对所有其他类测试每个类,然后以某种方式组合这些结果。谐波均值,给定待测类的先验似然,... ? 目前尚不清楚这些措施实际上会告诉你什么。
如果你有概率输出,负对数似然是一个很好的起点。
如果您已经对第 1 类有 70% 的准确率,这意味着您的数据集的 70% 是第 1 类,那么您可能会遇到分类器放弃一些较小的类而试图满足可能的正则化项的情况。但这完全取决于您的分类方案。如果你想要一个更清晰的答案,你需要告诉我们整个故事。;)
试试F1-score,它可以平衡精度和召回率。
精确率可以通过真阳性数除以总阳性数来计算,召回率可以通过真阳性数除以实际属于阳性类的元素总数来计算。这些由调和平均值加权。
其它你可能感兴趣的问题