分类还是回归?如果我只关心高于或低于阈值,哪种模型更准确?

数据挖掘 机器学习 分类 回归
2022-02-13 12:17:48

如果我有一个回归问题,它也可以是一个分类问题,通过根据阈值将连续变量转换为二进制,如果我只关心高于或低于阈值,哪个模型会更准确?

示例:我有一列房价 [20, 30, 40, 70] 但我只关心房子是贵(超过 40)还是便宜(低于 40)

1个回答

分类是更直接的方法,它可能会产生更好的结果。这是因为模型的目标与您的目标完全相同——即预测价格是高于还是低于阈值——并且它将最大限度地提高这种准确性。

例如,试图最小化 MSE 的回归模型可能会给您一个模型,该模型不能准确地将预测放在阈值的正确一侧——它不知道或不关心。该模型与您的目标不同。

让我们构建一个非常简单的例子来看看为什么会这样:

Training     Test 
x      y     x      y
1.0    20    1.8    ?
2.0    20    2.4    ?
3.0    200   2.8    ?
4.0    200   3.2    ?

这里我使用规​​则if x<2.5: y=20, else y=200来生成数据。

最大边距分类器会正确处理所有测试示例,但适合训练数据的线性回归模型会使所有测试示例出错。