我的目标是开发一个模型,以美元预测下一个客户购买(更新:在数据集的时间段内,如果客户没有购买,下一个购买标签设置为零)。我正在尝试确定衡量模型性能的最有效指标。
结果如下所示:
y_true_usd | y_predicted_usd |
---|---|
1.2 | 0.8 |
0 | 0.3 |
0 | 1.1 |
0 | 0 |
0 | 0.1 |
5.3 | 4.3 |
首先,我考虑使用RMSE
,但由于我的大多数客户不下订单,RMSE
因此由于付费用户的稀有性,往往会掩盖错误(模型预测大部分为 0,并且在预测购买方面做得很差)。我的下一步是将客户分为 5 组,并使用 quadratic cohen's kappa
指标来衡量绩效。Kappa 指标运行良好,反映了性能不佳的模型,但是,我被迫对客户进行分类。
在不区分客户的情况下,哪个是衡量模型性能的好指标?
更新:寻找一个单一的指标来强调在不平衡的数据集中预测正确数量的美元的准确性,并帮助我确定新模型是否比以前的模型更好。