我正在尝试解决目标变量为数字的 ML 问题,比如说一个城市的污染水平。但是客户对预测污染物的实际数量不感兴趣,他们只是想知道基于商定阈值的污染水平是高还是低。(如果 PM2.5 水平高于 200,则为高,否则为低)。
我应该将其视为回归问题并将数字 PM2.5 水平作为目标,还是作为分类问题,根据阈值制作高/低污染水平的另一个特征并使用该二元变量作为目标?两者的优点和缺点是什么?如果有的话,它会对准确性产生什么影响?
我正在尝试解决目标变量为数字的 ML 问题,比如说一个城市的污染水平。但是客户对预测污染物的实际数量不感兴趣,他们只是想知道基于商定阈值的污染水平是高还是低。(如果 PM2.5 水平高于 200,则为高,否则为低)。
我应该将其视为回归问题并将数字 PM2.5 水平作为目标,还是作为分类问题,根据阈值制作高/低污染水平的另一个特征并使用该二元变量作为目标?两者的优点和缺点是什么?如果有的话,它会对准确性产生什么影响?
当您将变量从数值转换为二进制时,您会丢失有关变量大小的信息并将其汇总为>=X变量。
根据您对模型的用途,它具有优点和缺点:
如果您的模型必须确定您的污染“多高”的确切数量,那么转换它不是一个好主意,因为您正在丢失关键信息,但如果城市主要宣布在污染大于 时实行宵禁x,那么二进制输出不仅是个好主意,而且对于您使用它实现的决定是必要的。
当您将变量转换为二进制时,您实现的假设模型与具有数值变量的模型具有不同类型的信息:
RMSE),您将测量一个集合的成员资格(测量AUC)。