ML 分类器的哪个准确度度量可以最大化不平衡数据集的推荐系统的 map@K?

数据挖掘 机器学习 分类 推荐系统 阶级失衡 损失函数
2022-01-19 10:29:56

我必须建立一个推荐系统,它将使用 map@10 标准进行评估。我已经在用户项级别汇总了数据/行,并且正在 scikit learn 中使用 Gradient Boosting 来构建模型。

挑战

但是存在很大的类别不平衡,只有 6%(在 40K 使用项目对中)实际购买了整个基地中的项目。鉴于这个挑战,我想知道我应该用来调整 GBM 模型参数的准确度指标。

问题

我考虑过使用召回率、精度、f1 分数等来调整 GBM 的超参数。但是考虑到类不平衡,哪一个会最大化 map@10 呢?

谢谢

1个回答

如果您想留在 Python 中,我建议您使用 xgboost 而不是 GradientBoostingClassifier - 除其他优点外,它还支持 map / ndcg 作为指标。如果你正在考虑 R,gbm 支持 map 和 ndcg。