我有兴趣使用有序分类因变量评估模型对数据的性能。对于我的用例,理想的指标是:
- 不假设类之间的间隔相等或重新编码为连续规模是合适的
- 独立于规模
- 优先考虑对结果进行准确排序的模型,对具有较大差异程度的错误排序的类给予更高的惩罚(例如,优秀 > 差 > 好优于优秀 > 非常差 > 好)
- 接受连续的预测并对它们的分布漠不关心
例如,假设我们有以下测试集,其中“response”是 5 类序数响应,“pred1”、“pred2”和“pred3”是预测:
id response pred1 pred2 pred3
1 Excellent 1.00 150 10
2 Good .80 39 9
3 Good .85 12 5
4 Fair .40 11 4
5 Poor .39 10 3
6 Very Poor .20 3 2
. . . . .
. . . . .
出于我的目的,理想的指标将所有三个预测评分为同样准确,因为这三个预测都完美地对响应进行了排名。
我有哪些选择以及每种选择的好处/缺点?引用 R 包或函数的奖励积分。