将回归问题转化为分类问题

数据挖掘 机器学习 分类 回归
2021-09-17 10:33:13

在 TA 会话中,我的 TA 声称,回归问题通常应该通过将输出范围划分为 bin,然后使用多重损失来转化为分类问题,因为我们的分类比回归算法更好。

在我的理解中,这本质上是错误的,因为它丢弃了“接近正确胜于远正确”的属性。所有错误的课程都同样错误。我问过我的教授,但他只是说,有些应用是有意义的,不想再讨论了。

我错了吗?什么时候应该将回归问题转换为分类问题?

编辑:我不知道我的助教是否提到过它,但这是来自 A. Karpathy 的推文:https ://twitter.com/karpathy/status/708480082831024128

not-widely-enough-known-protip:除非绝对必要,否则不要在神经网络中使用 L2 损失(回归)。Softmax 可能会更好地工作。

2个回答

原则上的陈述似乎很模糊,怎么能说有比回归算法更好的分类呢?

话虽如此,我将把声明改写为:

有时将回归转换为分类问题是可行的,因为对于问题本身,预测范围/bin而不是连续值是有意义的。

这样做时我们必须小心,因为我们没有面临“常见”分类问题,但我们有一个序数分类问题,其中我们有一个来自新目标(bins)的自然顺序

参考检查:

https://stats.stackexchange.com/questions/493254/why-ordinal-target-in-classification-problems-needs-special-attention

它真的再次归结为统计建模与决策。但我普遍同意你的观点,这种做法没有好处。至少我认为你的助教用“经常”这个词是不正确的。


在 TA 会话中,我的 TA 声称,回归问题通常应该通过将输出范围划分为 bin,然后使用多重损失来转化为分类问题......

这似乎是错误的。如果您使用两个以上的 bin,那么问题仍然应该被视为序数分类而不是平面分类。

...因为我们有比回归算法更好的分类。

这似乎也是错误的,尽管很难证明是否定的。你能问你的TA的例子吗?

在我的理解中,这本质上是错误的,因为它丢弃了“接近正确胜于远正确”的属性。所有错误的课程都同样错误。

确切地说,再次考虑将序数回归作为一种中间方法。但是,原始回归仍然提供更多信息。然而,

有些应用程序是有意义的......

现在这可能是真的。作为对链接推文的回复的示例,假设您正在模拟温度,但最终您关心的是是否应该穿外套。温度的最佳模型将是回归,但如果您真的想将所有内容绑定到一个模型中,假设您在 5C 时离散化。现在,如果您的回归在预测温度为 40C(例如 30C)的情况下相差甚远,那么它实际上不会影响您的决定。实际上,您更喜欢在截止值附近更准确的模型。但在另一个方向,4.5C 被“错误分类”为 5.5C 可能也不是你想要的......

而且,鉴于推文作者的回应如此之少,我不愿意相信他们的话(尽管他们有凭据)。

另请参阅:
减少回归到分类
如何将回归转换为分类?