对硬标记排名数据集使用回归而不是分类

数据挖掘 分类 回归 排行
2022-03-06 17:38:16

假设我有一个带有注释情绪的电影评论数据集:

-1 means negative
 0 means neutral
+1 means positive

我看到很多人尝试进行分类以尝试回答这些类型的问题,但不应该使用回归来代替吗?对我来说,使用回归将允许系统对标签之间存在转换进行建模,例如,0 介于两者之间。对此有什么想法吗?

2个回答

回归的一个问题是负面、中性和正面之间的距离不一定相同。您提到的这种转换/不确定性可以通过使用类上的概率分布而不是硬 argmax 来建模。例如,如果您使用神经网络,最后一个 softmax 层会免费为您提供此信息(例如:0.1 on Negative、0.6 Neutral 和 0.3 Positive)。

这是序数回归https://en.wikipedia.org/wiki/Ordinal_regression

引用自维基百科:

在统计学中,序数回归(也称为“序数分类”)是一种回归分析类型,用于预测序数变量,即其值存在于任意尺度上的变量,其中只有不同值之间的相对排序是显着的。

例如,您描述的排名系统或调查中常见的分类但有序答案的任何问题(“总是”、“有时”、“从不”)。