如果我有一个回归问题,它也可以是一个分类问题,通过根据阈值将连续变量转换为二进制,如果我只关心高于或低于阈值,哪个模型会更准确?
示例:我有一列房价 [20, 30, 40, 70] 但我只关心房子是贵(超过 40)还是便宜(低于 40)
如果我有一个回归问题,它也可以是一个分类问题,通过根据阈值将连续变量转换为二进制,如果我只关心高于或低于阈值,哪个模型会更准确?
示例:我有一列房价 [20, 30, 40, 70] 但我只关心房子是贵(超过 40)还是便宜(低于 40)
分类是更直接的方法,它可能会产生更好的结果。这是因为模型的目标与您的目标完全相同——即预测价格是高于还是低于阈值——并且它将最大限度地提高这种准确性。
例如,试图最小化 MSE 的回归模型可能会给您一个模型,该模型不能准确地将预测放在阈值的正确一侧——它不知道或不关心。该模型与您的目标不同。
让我们构建一个非常简单的例子来看看为什么会这样:
Training Test
x y x y
1.0 20 1.8 ?
2.0 20 2.4 ?
3.0 200 2.8 ?
4.0 200 3.2 ?
这里我使用规则if x<2.5: y=20, else y=200来生成数据。
最大边距分类器会正确处理所有测试示例,但适合训练数据的线性回归模型会使所有测试示例出错。