是否有任何理由将回归转变为分类 - 将连续目标分类,然后在这些目标上学习模型?(假设算法不是问题。)
回归变成分类
您实际上将算法的输出从Continuous转换为categorical。
我看到你为什么要这样做的许多原因。一个简单的情况是当您有很长的时间序列数据需要保存大量空间时。在这种情况下,将时间序列转换为直方图表示很方便,直方图表示实际上是许多预定义的 bin,所有值都属于其中。这将大大减少算法的内存需求,因为您只需在进行测量时增加 bin(整数)的计数,而不是将测量本身存储为浮点数。
这当然有缺陷,例如丢失测量之间的“时间”依赖性以及降低数据集的分辨率。但是,它在预测测量值时非常有用,因为不是将连续的 R 空间作为预测器的输出,而是实际上有(例如)10 个箱(类)来预测下一次测量将落入,从而使您更容易要训练的模型。
仅供参考,这正是汽车行业所做的。
编辑 - (添加来源)
资料来源:
https://people.dsv.su.se/~tony/papers/dmin_2015.pdf(检查算法)
https://www.phmsociety.org/node/2284(前面的算法在这里适用于卡车)
https://link.springer.com/article/10.1007/s10618-017-0538-6(另一种基于卡车数据直方图的算法)
虽然这样做可能会简化您的分析,但这不是推荐的方法。
让我们举个例子。假设您使用一系列解释变量(X1、X2、X3)来估计汽车销售额(以美元为单位)。
现在,假设我们的汽车销售变量是区间,即我们有一系列汽车销售数据(25000、37500、3000、71000……)等。假设您要将因变量转换为分类变量。例如>25000 = 1,<25000 = 0。
通过这样做,您会从因变量中丢失大量信息,并且您的模型将无法量化每个解释变量对因变量的单位效应。
这就是为什么在运行二元逻辑回归时,通常建议至少使用500 个观察值来诱导因变量发生显着变化,以分析这种变化的影响(Studenmund,2010)。此外,正是由于这个原因,在分析具有分类因变量的数据集时,回归模型(如 R-Squared)中的传统拟合测量值变得无效。
分类变量(或类)用于无法使用区间变量来量化特定条件的情况。例如,假设您是一名医学研究人员,正在构建一个模型以确定特定患者是否存在糖尿病。现在,一个人要么患有糖尿病,要么没有(糖尿病 = 1,无糖尿病 = 0)。因此,您的模型不会“丢失”信息,因为因变量提供了处理模型所需的所有信息。
通过丢弃信息,您可能会增加第1 类错误的可能性——您拒绝一个真正的零假设。
总之,这取决于您正在使用的数据。在某些情况下,如果以分类方式表示因变量,它可能更有意义。但是,在许多其他情况下,它不是推荐的方法。