如何让算法具有基于聚合预测的评估指标?

数据挖掘 预测建模 xgboost 预言 评估
2022-03-01 21:01:59

假设我有一个模型可以对每个人进行预测。下面是一个示例数据集。通常,评估指标(例如在 XGBoost 算法中)用于单个观察。但是,我不在乎个别预测是否准确,我只希望总体预测准确。

换句话说,使用下面的样本数据集,并按性别聚合预测,我想最小化男性的 (1000+3000) 和 (900+3100) 以及 (2000+4000) 和 (1900+4100) 之间的 RMSE对于女性;这与每个观察值在正常意义上最小化 RMSE 不同。

这种类型的评估指标是否有一个短语?有没有办法将其应用到 XGBoost 等流行算法中?

注意:在训练之前没有合理的方法来聚合数据,最终我确实需要每个人的预测。

样本数据

1个回答

我不在乎个人预测是否准确

如果这是真的(我认为不是),那么您可以只取男性和女性目标的组平均值来最小化 RMSE,并分别将其作为对所有男性和女性个体的预测。(基本上,Gender如果您坚持使用 xgboost,则该模型是唯一特征。)有人可能会争辩说,这种单一特征模型可能不如具有更多特征的模型泛化到新数据,但如果Gender没有任何有意义的相关方式到目标,Gender无论如何您都无法优化 RMSE。

根据您的“注释”,我假设您以某种方式想要对个人和团体进行良好的预测。在这种情况下,最小化正常的“个人级别”RMSE 已经是最好的方法了。