在我的计算机科学硕士课程中,教授要求我们提出最好的模型来预测这个特定的数据集。在其中,我们需要测量鲍鱼的重量和大小,并需要预测其壳中的环数(整数)。这是数据外观的示例:
最初使用该数据库的原始论文(Sam Waugh (1995) “Extending and benchmarking Cascade-Correlation”)使用了一种分类方法,其中每个不同数量的环被视为不同的类。
我发现这种方法存在一些问题:
首先,论文作者使用的评价指标是分类准确率,没有考虑预测值与其响应的接近程度。例如,当正确值为 4 时预测值为 3 的模型被视为与预测值为 22 且正确值为 4 的模型相同(两者都分类错误)。
其次,数据集高度不平衡,很少有鲍鱼具有大量环。
根据我的最佳解释,如果我们使用回归模型(例如,以均方根误差作为评估指标)而不是分类,这两个问题都会消失。但是,通常的回归模型会为您的响应提供真实值。对于我的非统计学家来说,这似乎不是问题,因为您总是可以将您的值四舍五入到最接近的整数。
我的问题是:
多元回归确实是尝试对这些数据建模的最佳方法吗?
是否有考虑响应与分类结果的接近程度的分类评估指标?如果是,它可以用于这个问题吗?
将回归结果四舍五入到最接近的整数有什么问题吗?
任何其他有助于我最好地解决问题的意见、建议或想法也非常有帮助。
另外,如果在我对问题的解释中做出任何不正确的假设或错误,我们深表歉意。随时纠正我。
