响应是一个整数。我应该使用分类还是回归?

机器算法验证 回归 分类
2022-03-30 16:12:43

在我的计算机科学硕士课程中,教授要求我们提出最好的模型来预测这个特定的数据集。在其中,我们需要测量鲍鱼的重量和大小,并需要预测其壳中的环数(整数)。这是数据外观的示例:

在此处输入图像描述

最初使用该数据库的原始论文(Sam Waugh (1995) “Extending and benchmarking Cascade-Correlation”)使用了一种分类方法,其中每个不同数量的环被视为不同的类。

我发现这种方法存在一些问题:

  • 首先,论文作者使用的评价指标是分类准确率,没有考虑预测值与其响应的接近程度。例如,当正确值为 4 时预测值为 3 的模型被视为与预测值为 22 且正确值为 4 的模型相同(两者都分类错误)。

  • 其次,数据集高度不平衡,很少有鲍鱼具有大量环。

根据我的最佳解释,如果我们使用回归模型(例如,以均方根误差作为评估指标)而不是分类,这两个问题都会消失。但是,通常的回归模型会为您的响应提供真实值。对于我的非统计学家来说,这似乎不是问题,因为您总是可以将您的值四舍五入到最接近的整数。

我的问题是:

  1. 多元回归确实是尝试对这些数据建模的最佳方法吗?

  2. 是否有考虑响应与分类结果的接近程度的分类评估指标?如果是,它可以用于这个问题吗?

  3. 将回归结果四舍五入到最接近的整数有什么问题吗?

任何其他有助于我最好地解决问题的意见、建议或想法也非常有帮助。

另外,如果在我对问题的解释中做出任何不正确的假设或错误,我们深表歉意。随时纠正我。

1个回答

我最近使用鲍鱼数据集来说明一些回归方法,并且遇到了基本相同的问题。(更新:链接到论文“Predictive State Smoothing (PRESS): Scalable non-parametric regression for high-dimensional data with variable selection”。)

这是我的看法:

  1. 我想说回归是解决这个问题的最自然的方法(有关特定领域的基本原理,请参阅帖子末尾的一般评论)。恕我直言,做一个简单的多类分类方法是完全错误的——因为你指出的原因(预测“3”的“22”与预测“4”一样好/坏——这显然不是真的) .

  2. 我认为您正在寻找“有序”或“有序”分类,它考虑了这样的排序(参见例如http://www.cs.waikato.ac.nz/~eibe/pubs/ordinal_tech_report.pdf也包含鲍鱼数据集的示例。)但是,即使是序数分类也存在问题,即除了观察到的环数之外,您无法预测任何其他内容。比如说,有一天有一个比我们以前见过的任何贝壳都大 20% 的巨大鲍鱼壳——分类方法很可能会将它归入最大的类别,即“29”。然而,这是没有意义的,因为任何生物学家都会告诉你,那个壳很可能是一种罕见的发现,比如 35 环鲍鱼壳。

  3. 不,根本不是问题——它只是你的预测模型的一部分。

说了这么多,最后你应该问自己鲍鱼数据试图帮助解决的特定领域问题是什么?!

它正在预测贝壳的年龄,它使用环数作为代理。生物学家对预测环的数量并不真正感兴趣,他们想知道年龄。因此,例如 6.124 的预测并不比“6”或“7”有用——事实上,它可能更有用。我将此归咎于 CS/eng 试图将所有内容都视为精度/召回问题,因此他们喜欢将其强调为整数预测/分类问题而不是回归——不是因为这实际上是根本问题,而是因为它适合他们的工具和基准指标(谁不喜欢在这个问题上抛出一个深度网络分类器并宣布胜利,因为“精确度/召回率或 AUC 真的很高”;))