我有在某个时间点贷款的历史消费者数据。任务是预测消费者在申请贷款时是否会违约。
我的问题是,对于数据集中的某些客户,历史交易只有在贷款发放后才可用。我相信使用贷款事件后的数据进行预测会导致数据泄漏。
这是一个微妙的泄漏,因为它不涉及使用预测时不可用的信息。我更关心的是当客户负债时的行为变化会导致基础分布发生变化。
为了检验我的假设,我想知道比较贷款发放前后的两个样本是否来自同一分布是否是一个好方法。
这些是我的问题:
在我描述的场景中是否真的存在数据泄漏
如果是,我可以以任何方式对其进行测试吗?
两个样本测试可以提供答案吗?哪一个?请注意,样本由多变量数据组成
我可以使用任何机器学习方法进行测试吗?例如,我正在考虑使用混合模型进行测试。
除了我的建议之外,任何关于如何最好地处理这个问题的建议都将不胜感激。
谢谢