我正在研究创建一个模型来预测一个项目是“非常好”、“好”、“坏”还是“非常坏”。
在我将训练数据拟合到模型之后,在测试期间比较模型的准确性让我感到困惑:如果一个模型将 G 错误分类为 VG 而另一个 G 错误分类为 VB,这是否重要?一个模型有两个错误分类的一个级别,而另一个模型只有一个错误分类但三个级别(例如 VG 到 VB)呢?
关于什么是常用方法的任何指南?此外,我目前的想法是这应该是一个回归问题,但如果我应该将数据集的这种标签更多地视为一个分类问题,我很高兴得到纠正。
我正在研究创建一个模型来预测一个项目是“非常好”、“好”、“坏”还是“非常坏”。
在我将训练数据拟合到模型之后,在测试期间比较模型的准确性让我感到困惑:如果一个模型将 G 错误分类为 VG 而另一个 G 错误分类为 VB,这是否重要?一个模型有两个错误分类的一个级别,而另一个模型只有一个错误分类但三个级别(例如 VG 到 VB)呢?
关于什么是常用方法的任何指南?此外,我目前的想法是这应该是一个回归问题,但如果我应该将数据集的这种标签更多地视为一个分类问题,我很高兴得到纠正。
你的类表达了一定的顺序。您可以将苹果分类为“绿色”、“红色”或“黄色”,然后每个与参考集的分歧都是相等的。毕竟,颜色没有顺序。因此,正如您已经建议的那样,我当然会使用回归。假设类可以像这样分布:
现在,Very good与Bad的不匹配至少为 0.25,其中Very good与Very bad的不匹配度必须至少为 0.50 ,这样可以更好、更诚实地展示模型的性能。