数据挖掘 - 如何判断一个问题应该使用回归模型还是分类模型？ - 吾爱随笔录

如何判断一个问题应该使用回归模型还是分类模型？

数据挖掘机器学习分类回归监督学习

2022-03-09 12:53:25

一旦我们知道问题需要使用监督学习来解决，我们如何知道是否必须使用回归分析或分类算法来解决它？有一些可以使用的拇指规则吗？

大多数在线资源都给出了回归模型的房价标准示例和分类模型的恶性/良性癌症图。这对我帮助不大。

是否有分析给定问题的概念方法？

4个回答

一个好的经验法则是查看目标/响应变量的测量水平。如果响应是在名义尺度上测量的，则问题是分类问题。名义尺度上的值是例如类别没有自然顺序的类别的标签，例如政治科学中的政党、生物学中的物种或语法中的词性。

如果响应是按比率或区间尺度测量的，则存在回归问题。间隔刻度上的值是您可以比较值之间差异程度的值，但不能比较它们之间的比率，例如温度（在华氏或摄氏刻度上，但不是开尔文），或日历中的日期值。比率尺度上的值可以在差异程度和比率方面进行比较，就像大多数物理量一样，如开尔文尺度上的质量、速度或温度。

序数刻度更难放置在任一角落。我通常会说您对序数响应有排名问题。但是，可以使用分类（例如使用比较器）和回归（如序数回归）来解决排名问题。序数尺度上的值是有序的或排名的，但对于任何两个值之间的差异程度，您无法说出任何有意义的信息，例如赛车手在比赛中的排名。

x从一组映射到的示例中学习y可以被概念化为寻找函数f，使得：

y = f(x)
x is vector of features, for e.g., car_model, car_version, city as vector of features for price prediction of used car.
y is output variable, for e.g., price of car x sold at.

如果y是连续的，则问题是回归问题，否则如果y是离散的，则问题是分类问题

连续隐含y可以在实尺度上取任何值 [i, j]，而离散隐含y可以从 {a, b, ..., d} 的集合中取值

通常，您使用回归模型的情况是您想要从一组给定的自变量中预测一个连续值。

例如： 让以下值的类型为 [independent_variable,dependent_variable] 或简单地 $[marks,height]$ 值是 $[2,0],[3,2],[4,5],[1,1]$ . 您可以通过这些值拟合一条直线或曲线 ( $[2,0],[3,2]$ 等），然后查看值为 $[10,y]$ 给出或标记 $10$ 获得，可以是什么 $y$ （高度）您已建模的拟合线或曲线的值。

看看上述类型的线性回归。

分类模型用于与前一种情况一样获得一组自变量但训练中使用的因值不是连续值而是告诉值属于哪个类的情况。

例如： $([2,1],fail),([3,2],fail),([4,5],pass),([1,2],fail)$ . 这里[2,1]属于类 $fail$ 等等。所以稍后当一个点说 [7,8] 时，你会发现它可能属于哪个类（通过或失败）。

例如，这种情况下的SVM创建一个超平面（一个多维平面），并根据点在空间中的位置，它会以一定的概率找到类。

简单地说，如果依赖值是连续的，则选择回归；如果依赖值是一个类，则选择分类。

目标值是否有序？那么很可能是回归。

否则分类。

请参阅测量水平。

例子

回归

价格预测
评分预测

分类

预测用户的性别
预测图像中对象的类别（狗、猫、房子、飞机……）

但是，我想说对于两个班级来说，这并没有太大的区别。在预测用户性别的情况下，您还可以预测用户为女性的概率。这只是同一问题的一个微小变化（忽略this）。

其它你可能感兴趣的问题

上一篇基于历史数据的价格预测下一篇Pandas 数据框中的字符串值