如果我们有一本贷款簿并且想要训练数据来预测违约概率,那么在每个账户都在一段时间内而不是仅仅在一段时间内开立的情况下,对历史数据进行采样以训练模型的合适方法是什么?单张快照?
例如 - 为了预测贷款账簿上新客户的违约情况,很容易选择数据来在等效时间点训练模型 - 即当每个客户都是新客户时,我们可以查看 FICO 分数、客户年龄、贷款申请时的本国等。
但是,一旦贷款已经发放,并且我们希望建立一个模型来考虑持续的还款历史,那么在统计上合适的样本是什么?贷款期限内的随机样本,在单个随机时间点选择每条记录,在指定时间点(例如,从发起开始正好 6 个月)选择所有贷款,还是在一个时期内的日期样本?
或者它是否需要其他东西 - 分类模型实际上是否适合这种类型的场景(假设二元结果),或者是否应该考虑某种时间序列或生存模型?