什么是衡量序数分类错误的好指标?
例如,假设我们有 3 个类“LOW”、“MEDIUM”和“HIGH”。我们应该发现,如果我们将“LOW”误分类为“MEDIUM”,则误差小于将“LOW”误分类为“HIGH”。
是否有任何指标可以解释这一点?
什么是衡量序数分类错误的好指标?
例如,假设我们有 3 个类“LOW”、“MEDIUM”和“HIGH”。我们应该发现,如果我们将“LOW”误分类为“MEDIUM”,则误差小于将“LOW”误分类为“HIGH”。
是否有任何指标可以解释这一点?
Gaudette 和 Japkowicz 2009比较了序数分类准确性的各种指标,他们表明,作为单一统计量,RMSE(均方根误差)或 MSE(均方误差)比他们在文献中发现的其他指标表现更好。尽管 RMSE/MSE 是为连续数据设计的,但其惩罚偏离均值的特性更严重地适用于转换为小整数的序数数据。
然而,Baccianella 等人 2009 年表明,当他们测试的真实数据中的序数类别不平衡时,MAE(平均绝对误差)在衡量性能方面的表现非常差;他们还暗示 MSE 也表现不佳。(不过,他们提到,在人工数据集中,性能差异并没有那么严重。)因此,他们提出了一种适应性措施,他们称之为宏平均 MAE赋予所有类别同等的权重,从而消除不平衡的影响。据我了解,他们的适配基本上是一次计算一个类别的MAE,然后取所有类别的平均值,给每个类别同等的权重:详见文章。然而,他们还表明,当类别平衡时,他们的 MAE 改编版本在数学上与常规版本相同。
因此,基于这两篇文章,我建议您尝试使用 Baccianella 的 MAE 或 MSE 改编版本,尤其是在您的目标变量类别显着不平衡的情况下。但是,如果类别是平衡的,那么简单的 RMSE 或 MSE 应该是一个很好的衡量标准,并且可能因其简单性而成为首选。
程建林,序数回归的神经网络方法,2007 年和Niu 等人,使用多输出 CNN 进行年龄估计的序数回归,2016 年利用标签的巧妙表示来使用交叉熵测量误差。
他们将总误差表示为预测样本“等级”是否为误差的总和大于等级.
换句话说,我们将生成带有元素的向量的预测,表示分类器对样本的秩是否大于每个秩的预测。这变成了一个多类分类问题,并且可以利用该问题的误差函数。那么,总误差可以被认为是单个二元分类器损失函数(例如交叉熵)的总和。
例如,预测等级 = 2 导致预测向量 = [1, 0, 0]。实际排名 = 3 导致标签向量 = [1, 1, 0]。然后计算向量中每个预测之间的损失。
这种方法的另一种解释可以在这里找到。
通过简单地将各个标签的等级转换为整数,可以将此问题转换为常规回归。例如,"HIGH" = 2
,"MEDIUM"=1
,"LOW"=0
。然后可以使用回归损失函数。