在序数回归/分类中比较模型的准确性

数据挖掘 机器学习 分类 回归 计分
2021-09-20 05:33:38

我正在研究创建一个模型来预测一个项目是“非常好”、“好”、“坏”还是“非常坏”。

在我将训练数据拟合到模型之后,在测试期间比较模型的准确性让我感到困惑:如果一个模型将 G 错误分类为 VG 而另一个 G 错误分类为 VB,这是否重要?一个模型有两个错误分类的一个级别,而另一个模型只有一个错误分类但三个级别(例如 VG 到 VB)呢?

关于什么是常用方法的任何指南?此外,我目前的想法是这应该是一个回归问题,但如果我应该将数据集的这种标签更多地视为一个分类问题,我很高兴得到纠正。

1个回答

你的类表达了一定的顺序。您可以将苹果分类为“绿色”、“红色”或“黄色”,然后每个与参考集的分歧都是相等的。毕竟,颜色没有顺序。因此,正如您已经建议的那样,我当然会使用回归。假设类可以像这样分布:

  1. 非常糟糕 = 0 - 0.25
  2. 差 = 0.25 - 0.50
  3. 好 = 0.50 - 0.75
  4. 非常好 = 0.75 - 1.00

现在,Very goodBad的不匹配至少为 0.25,其中Very goodVery bad的不匹配度必须至少为 0.50 ,这样可以更好、更诚实地展示模型的性能。