在寻找范围时,是否有任何理由不使用分类而不是回归?

数据挖掘 机器学习 分类 回归
2022-02-28 07:41:04

如果我只想预测连续值的范围,是否有任何理由使用回归而不是分类?它是否取决于我使用的模型类型(神经网络、决策树、贝叶斯......)?

例子

假设我有一个带有图像的数据集。每个图像上都有一个人,并标有他/她的身高。现在我只对预测身高范围感兴趣,例如这四个类别[ A, B, C, D ] = [ <150, 150-170, 170-190, >190 ] (in cm)有什么理由为什么以下两种方法之一会带来更好的性能?

  • 案例 1:使用回归- 首先创建并拟合一个模型,该模型可以预测图像的确切高度,然后简单地给出其相关的高度范围。
  • 案例 2:使用分类- 首先用想要的范围(=类)标记所有图像,然后创建并拟合分类器来预测这个高度范围。

注意:我想知道这个问题是否有一个普遍的答案,而不仅仅是这个例子

编辑

正如@n1tk 所指出的,在基于 CNN 的具有类数的深度模型的性能一文中,如果我们考虑增加类的数量,这个问题就得到了回答。在我的问题中,我想知道回归与分类因此,尝试从该值拟合一个连续值与范围。

1个回答

一般的答案是模型将如何被使用。对于这种情况,任何一种方式都可能是最佳的。

例如 - 如果模型将申请人分为良好的信用风险和不良的信用风险,那么可以说模型评分 > x = 良好风险和模型评分 <= x = 不良风险。但也许会根据模型分数采取不同的行动——比如给出不同的利率或更大的贷款。

在原始示例中,在回归实际 = 191,预测 = 189 中,您可以计算损失。

在分类中,如果实际 = 191 并且 P(>190)=0.35,P(170-190)=0.40,P(150-170)=0.25,那么你只是知道错误的类别。这足以满足模型的使用吗?

还有一个假设是会选择一个“更接近”的类,但这可能不是真的,例如actual=191, P(>190)=0.25, P(170-190)=0.25, P(150-170)= 0.5。回归也可以得出 160,但如果模型使用需要,您可以测量该损失。许多分类算法不知道类是否“接近” -混淆矩阵。“我离对角线有多近?”。有这样的指标吗?

您还可以查看序数回归https://en.wikipedia.org/wiki/Ordinal_regression在这种情况下,“类”中有一个隐含的排名。

根据模型的使用方式进行选择。了解用法和正在解决的问题总是很重要的,然后再回到模型。

希望有帮助。