数据挖掘 - 将数字目标转换为二进制有用吗？ - 吾爱随笔录

数据挖掘机器学习

2022-02-18 10:51:41

我正在尝试解决目标变量为数字的 ML 问题，比如说一个城市的污染水平。但是客户对预测污染物的实际数量不感兴趣，他们只是想知道基于商定阈值的污染水平是高还是低。（如果 PM2.5 水平高于 200，则为高，否则为低）。

我应该将其视为回归问题并将数字 PM2.5 水平作为目标，还是作为分类问题，根据阈值制作高/低污染水平的另一个特征并使用该二元变量作为目标？两者的优点和缺点是什么？如果有的话，它会对准确性产生什么影响？

1个回答

当您将变量从数值转换为二进制时，您会丢失有关变量大小的信息并将其汇总为>=X变量。

根据您对模型的用途，它具有优点和缺点：

如果您的模型必须确定您的污染“多高”的确切数量，那么转换它不是一个好主意，因为您正在丢失关键信息，但如果城市主要宣布在污染大于时实行宵禁x，那么二进制输出不仅是个好主意，而且对于您使用它实现的决定是必要的。

当您将变量转换为二进制时，您实现的假设模型与具有数值变量的模型具有不同类型的信息：

其它你可能感兴趣的问题