我有贷款分期还款的每月数据。数据包含工资、年龄、性别、信用评分等基本特征。除了上述特征,我还有最近 6 期失败/成功的数据。现在基于此,我想预测下个月哪些客户会违约。
我想强调的问题是,为了应用任何机器学习算法,我需要同一个月的标签,即对于 2 月 20 日的预测,我需要一些在 2 月 20 日带有标签成功/失败的行(这样我就可以在这个),然后可以预测 2 月 20 日的剩余数据。
但是在这里我没有 2 月 20 日的任何标签(我有过去失败的数据)。
我有贷款分期还款的每月数据。数据包含工资、年龄、性别、信用评分等基本特征。除了上述特征,我还有最近 6 期失败/成功的数据。现在基于此,我想预测下个月哪些客户会违约。
我想强调的问题是,为了应用任何机器学习算法,我需要同一个月的标签,即对于 2 月 20 日的预测,我需要一些在 2 月 20 日带有标签成功/失败的行(这样我就可以在这个),然后可以预测 2 月 20 日的剩余数据。
但是在这里我没有 2 月 20 日的任何标签(我有过去失败的数据)。
这是一个常见的问题。在一个完美的世界中,训练数据可以完美地代表需要预测的数据。然而,我们并不生活在一个完美的世界中,我们需要使用近似值。您没有关于 2 月 20 日的数据,但有关于 1 月 20 日、12 月 19 日等的数据。您仍然可以使用这些数据!没有什么能阻止你。