当一种类型的错误优于另一种类型的错误时,应该如何测量多类分类器的性能?

数据挖掘 分类 准确性 公制
2022-03-04 23:20:14

抱歉,如果之前有人问过这个问题——我在搜索这个主题时遇到了麻烦,因为我不确定我的措辞。

假设您有一个分类问题,其中有两个以上的标签是离散的,但大致对应于某些质量的提高——将这些标签称为 A、B 和 C。还说在这个问题中,最好高估那种品质,而不是低估。是否有一种度量标准可以捕获这种偏差并在实际 B 上对预测 A 的惩罚比在实际 B 上对预测 C 的惩罚更大?还是在数据科学方法的不同部分更好地处理这种偏好?

2个回答

像这样定义一个评分表(您需要调整此表以满足您的特定用例。我仅将其用作示例)。

Pred   | True Label
Label  | A    B   C  
-------+--------------
A      |  0  -1  -2
B      | -3   0  -1
C      | -4  -3   0

请注意,此评分表具有高估而不是低估的特性。

将评分表与属于 9 种可能场景中的每一种的预测数量相乘(按元素),然后将分数相加将为您提供具有所需属性的指标。

您正在寻找的是不对称损失函数。也就是说,误差函数在一侧比另一侧增长得更快。此问题已在此处进行回归处理。这可能是开始您的研究的好地方。