处理用于回归的不平衡/零膨胀训练示例

机器算法验证 回归 分类 不平衡类 零通胀 模型评估
2022-03-15 16:10:31

我正在尝试使用回归模型预测沙漠中的降雨量。但是,正如您所料,我的大多数训练示例都将标签归零。我有两个问题:

一个。什么是适当的绩效衡量标准?

对于分类问题,评估混淆矩阵、F1 分数或其他针对不平衡类进行归一化的指标(例如 kappa)似乎是常规做法。

在回归设置中呢?任何具有接近恒定零预测的模型输出都将实现非常低的 RMSE/MAE,但不能很好地直观地说明我的模型最终在预测降雨量方面的效果。

湾。什么是合适的模型?

似乎零膨胀数据的一种常见策略是将其拆分为一个两步问题,其中包含 {rain, no rain} 的二进制分类问题,从交叉验证中选择我最喜欢的分类器,然后用它拆分我的数据集分类器以预测降雨为条件运行单独的回归问题。

我对这种方法的主要担忧是我通过回归步骤获得的数据有限(很少有训练示例以预测降雨为条件)。

我可以采取更好的方法吗?

1个回答

(a) 评估您感兴趣的性能。因此,如果您主要对正确获得响应 E(y) 的期望感兴趣,那么 MAE 或 RMSE 很有用。类似地,您也可以使用条件期望 E(y | y > 0),即在有降水的情况下预期的降水量。如果您对任何降水 P(y > 0) 的概率最感兴趣,您可以查看相应的错误分类率或 Brier 分数等。如果您对整个分布感兴趣,评分规则如对数似然 (或对数分数)或 CRPS(连续排名概率分数)将是自然的。

(b) 除了具有二进制第一步和零截断第二步的两步模型之外,您还可以使用响应被删失为零的单一回归模型。crch在一篇关于我们的R 包的论文中提供了一个在天气预报上下文中使用降水的示例(参见https://doi.org/10.32614/RJ-2016-012)。