LightGBM 评价指标的选择

数据挖掘 机器学习 预测建模 lightgbm
2022-03-01 18:10:02

我有大量申请贷款的人的过去数据,以及他们从申请开始到贷款还清的 8 个不同阶段的流动情况。

我正在尝试建立一个模型来预测有多少人将在接下来的 5 天(一个工作周)内完成(支付)他们的贷款。我正在使用 LightGBM,它会根据过去的数据进行学习,然后对目前处于不同阶段的人使用该模型,并预测未来 5 天内有多少人可能会完成。这 8 个阶段只能像管道一样一个接一个地发生,因此更接近最后一个“完成”阶段的阶段完成的概率更高。

该模型给出了很好的准确率,但准确率得分很差,误报太多。

  1. 我主要使用均方误差,对另一个评估指标有什么建议吗?

  2. 由于这 8 个阶段遵循一个只能依次进行的管道,我可以以某种方式对它们进行不同的定义吗?

1个回答

关于 2)您的任务听起来像是生存分析的经典案例。根据您对问题的描述,我真的不能说这是否是一种选择,但我只想让您知道:https ://en.m.wikipedia.org/wiki/Survival_analysis