数据挖掘 - 在寻找范围时，是否有任何理由不使用分类而不是回归？ - 吾爱随笔录 - 问答

在寻找范围时，是否有任何理由不使用分类而不是回归？

数据挖掘机器学习分类回归

2022-02-28 07:41:04

如果我只想预测连续值的范围，是否有任何理由使用回归而不是分类？它是否取决于我使用的模型类型（神经网络、决策树、贝叶斯......）？

例子

假设我有一个带有图像的数据集。每个图像上都有一个人，并标有他/她的身高。现在我只对预测身高范围感兴趣，例如这四个类别[ A, B, C, D ] = [ <150, 150-170, 170-190, >190 ] (in cm)。有什么理由为什么以下两种方法之一会带来更好的性能？

案例 1：使用回归- 首先创建并拟合一个模型，该模型可以预测图像的确切高度，然后简单地给出其相关的高度范围。
案例 2：使用分类- 首先用想要的范围（=类）标记所有图像，然后创建并拟合分类器来预测这个高度范围。

注意：我想知道这个问题是否有一个普遍的答案，而不仅仅是这个例子

编辑

正如@n1tk 所指出的，在基于 CNN 的具有类数的深度模型的性能一文中，如果我们考虑增加类的数量，这个问题就得到了回答。在我的问题中，我想知道回归与分类。因此，尝试从该值拟合一个连续值与范围。

1个回答

一般的答案是模型将如何被使用。对于这种情况，任何一种方式都可能是最佳的。

例如 - 如果模型将申请人分为良好的信用风险和不良的信用风险，那么可以说模型评分 > x = 良好风险和模型评分 <= x = 不良风险。但也许会根据模型分数采取不同的行动——比如给出不同的利率或更大的贷款。

在原始示例中，在回归实际 = 191，预测 = 189 中，您可以计算损失。

在分类中，如果实际 = 191 并且 P(>190)=0.35，P(170-190)=0.40，P(150-170)=0.25，那么你只是知道错误的类别。这足以满足模型的使用吗？

还有一个假设是会选择一个“更接近”的类，但这可能不是真的，例如actual=191, P(>190)=0.25, P(170-190)=0.25, P(150-170)= 0.5。回归也可以得出 160，但如果模型使用需要，您可以测量该损失。许多分类算法不知道类是否“接近” -混淆矩阵。“我离对角线有多近？”。有这样的指标吗？

您还可以查看序数回归https://en.wikipedia.org/wiki/Ordinal_regression。在这种情况下，“类”中有一个隐含的排名。

根据模型的使用方式进行选择。了解用法和正在解决的问题总是很重要的，然后再回到模型。

希望有帮助。

其它你可能感兴趣的问题

上一篇Adaboost 与其他分类器拟合下一篇有没有可能在数据增强中应用深度梦想？