数据挖掘 - 回归变成分类 - 吾爱随笔录

回归变成分类

数据挖掘机器学习分类回归统计数据

2022-01-24 14:52:24

是否有任何理由将回归转变为分类 - 将连续目标分类，然后在这些目标上学习模型？（假设算法不是问题。）

2个回答

您实际上将算法的输出从Continuous转换为categorical。

我看到你为什么要这样做的许多原因。一个简单的情况是当您有很长的时间序列数据需要保存大量空间时。在这种情况下，将时间序列转换为直方图表示很方便，直方图表示实际上是许多预定义的 bin，所有值都属于其中。这将大大减少算法的内存需求，因为您只需在进行测量时增加 bin（整数）的计数，而不是将测量本身存储为浮点数。

这当然有缺陷，例如丢失测量之间的“时间”依赖性以及降低数据集的分辨率。但是，它在预测测量值时非常有用，因为不是将连续的 R 空间作为预测器的输出，而是实际上有（例如）10 个箱（类）来预测下一次测量将落入，从而使您更容易要训练的模型。

仅供参考，这正是汽车行业所做的。

编辑 - （添加来源）

资料来源：

https://people.dsv.su.se/~tony/papers/dmin_2015.pdf（检查算法）

https://www.phmsociety.org/node/2284（前面的算法在这里适用于卡车）

https://link.springer.com/article/10.1007/s10618-017-0538-6（另一种基于卡车数据直方图的算法）

虽然这样做可能会简化您的分析，但这不是推荐的方法。

让我们举个例子。假设您使用一系列解释变量（X1、X2、X3）来估计汽车销售额（以美元为单位）。

现在，假设我们的汽车销售变量是区间，即我们有一系列汽车销售数据（25000、37500、3000、71000……）等。假设您要将因变量转换为分类变量。例如>25000 = 1，<25000 = 0。

通过这样做，您会从因变量中丢失大量信息，并且您的模型将无法量化每个解释变量对因变量的单位效应。

这就是为什么在运行二元逻辑回归时，通常建议至少使用500 个观察值来诱导因变量发生显着变化，以分析这种变化的影响（Studenmund，2010）。此外，正是由于这个原因，在分析具有分类因变量的数据集时，回归模型（如 R-Squared）中的传统拟合测量值变得无效。

分类变量（或类）用于无法使用区间变量来量化特定条件的情况。例如，假设您是一名医学研究人员，正在构建一个模型以确定特定患者是否存在糖尿病。现在，一个人要么患有糖尿病，要么没有（糖尿病 = 1，无糖尿病 = 0）。因此，您的模型不会“丢失”信息，因为因变量提供了处理模型所需的所有信息。

通过丢弃信息，您可能会增加第1 类错误的可能性——您拒绝一个真正的零假设。

总之，这取决于您正在使用的数据。在某些情况下，如果以分类方式表示因变量，它可能更有意义。但是，在许多其他情况下，它不是推荐的方法。

其它你可能感兴趣的问题

上一篇生成器和鉴别器的损失如何减少？下一篇找到区分两组的最重要特征