抱歉,如果之前有人问过这个问题——我在搜索这个主题时遇到了麻烦,因为我不确定我的措辞。
假设您有一个分类问题,其中有两个以上的标签是离散的,但大致对应于某些质量的提高——将这些标签称为 A、B 和 C。还说在这个问题中,最好高估那种品质,而不是低估。是否有一种度量标准可以捕获这种偏差并在实际 B 上对预测 A 的惩罚比在实际 B 上对预测 C 的惩罚更大?还是在数据科学方法的不同部分更好地处理这种偏好?
抱歉,如果之前有人问过这个问题——我在搜索这个主题时遇到了麻烦,因为我不确定我的措辞。
假设您有一个分类问题,其中有两个以上的标签是离散的,但大致对应于某些质量的提高——将这些标签称为 A、B 和 C。还说在这个问题中,最好高估那种品质,而不是低估。是否有一种度量标准可以捕获这种偏差并在实际 B 上对预测 A 的惩罚比在实际 B 上对预测 C 的惩罚更大?还是在数据科学方法的不同部分更好地处理这种偏好?
像这样定义一个评分表(您需要调整此表以满足您的特定用例。我仅将其用作示例)。
Pred | True Label
Label | A B C
-------+--------------
A | 0 -1 -2
B | -3 0 -1
C | -4 -3 0
请注意,此评分表具有高估而不是低估的特性。
将评分表与属于 9 种可能场景中的每一种的预测数量相乘(按元素),然后将分数相加将为您提供具有所需属性的指标。
您正在寻找的是不对称损失函数。也就是说,误差函数在一侧比另一侧增长得更快。此问题已在此处进行回归处理。这可能是开始您的研究的好地方。