使用分类模型对违约概率进行抽样的适当方法是什么?

数据挖掘 机器学习 预测建模 预测
2022-02-14 19:37:39

如果我们有一本贷款簿并且想要训练数据来预测违约概率,那么在每个账户都在一段时间内而不是仅仅在一段时间内开立的情况下,对历史数据进行采样以训练模型的合适方法是什么?单张快照?

例如 - 为了预测贷款账簿上新客户的违约情况,很容易选择数据来在等效时间点训练模型 - 即当每个客户都是新客户时,我们可以查看 FICO 分数、客户年龄、贷款申请时的本国等。

但是,一旦贷款已经发放,并且我们希望建立一个模型来考虑持续的还款历史,那么在统计上合适的样本是什么?贷款期限内的随机样本,在单个随机时间点选择每条记录,在指定时间点(例如,从发起开始正好 6 个月)选择所有贷款,还是在一个时期内的日期样本?

或者它是否需要其他东西 - 分类模型实际上是否适合这种类型的场景(假设二元结果),或者是否应该考虑某种时间序列或生存模型?

2个回答

你应该看看这个关于欺诈检测的Kaggle 竞赛。在这个内核中,获胜团队解释了他们的方法。

这可能是一种时间序列方法(与您的相同),但在这种情况下:

我们不预测欺诈交易。据比赛主持人林恩在这里。一旦客户(信用卡)发生欺诈行为,他们的整个账户就会被转换为 isFraud=1。因此,我们预测欺诈客户(信用卡)。

对于赢得挑战的这个团队,解决方案是:

我们使用月份作为组进行了 CV GroupKFold。

似乎您可以使用相同的验证策略。

https://www.kaggle.com/c/ieee-fraud-detection/discussion/111284

有两种主要方法:要么考虑贷款的整个生命周期,要么考虑贷款的一部分。这两种方法反映了信用评分的两个潜在问题:授予贷款和衡量与您的投资组合相关的风险。

纵观贷款的整个生命周期:

  • 您的特征将是客户在贷款开始时的情况。

  • 您的目标是在贷款期限内发生违约事件。

  • 优点:它将帮助您做出是否授予贷款的决定。

  • 缺点:很难收集数据(一笔已偿还/违约贷款 = 一个实例)来学习,如果客户的情况发生了显着变化,将难以处理当前的贷款。

考虑到它的大块:

  • 你定义一个周期性和一个范围

  • 您的特征是期初客户的情况

  • 您的目标是在期限后发生(或不发生)违约

  • 这将有助于衡量与您的投资组合相关的风险(但无助于贷款与否)

  • 这将使您能够获得更多数据并处理相对较新的贷款。