我正在尝试使用回归模型预测沙漠中的降雨量。但是,正如您所料,我的大多数训练示例都将标签归零。我有两个问题:
一个。什么是适当的绩效衡量标准?
对于分类问题,评估混淆矩阵、F1 分数或其他针对不平衡类进行归一化的指标(例如 kappa)似乎是常规做法。
在回归设置中呢?任何具有接近恒定零预测的模型输出都将实现非常低的 RMSE/MAE,但不能很好地直观地说明我的模型最终在预测降雨量方面的效果。
湾。什么是合适的模型?
似乎零膨胀数据的一种常见策略是将其拆分为一个两步问题,其中包含 {rain, no rain} 的二进制分类问题,从交叉验证中选择我最喜欢的分类器,然后用它拆分我的数据集分类器以预测降雨为条件运行单独的回归问题。
我对这种方法的主要担忧是我通过回归步骤获得的数据有限(很少有训练示例以预测降雨为条件)。
我可以采取更好的方法吗?