如何处理时间序列数据中可能出现的数据泄露?

数据挖掘 机器学习 数据泄露
2021-09-19 23:30:39

我有在某个时间点贷款的历史消费者数据。任务是预测消费者在申请贷款时是否会违约。

我的问题是,对于数据集中的某些客户,历史交易只有在贷款发放后才可用。我相信使用贷款事件后的数据进行预测会导致数据泄漏。

这是一个微妙的泄漏,因为它不涉及使用预测时不可用的信息。我更关心的是当客户负债时的行为变化会导致基础分布发生变化。

为了检验我的假设,我想知道比较贷款发放前后的两个样本是否来自同一分布是否是一个好方法。

这些是我的问题:

  1. 在我描述的场景中是否真的存在数据泄漏

  2. 如果是,我可以以任何方式对其进行测试吗?

  3. 两个样本测试可以提供答案吗?哪一个?请注意,样本由多变量数据组成

  4. 我可以使用任何机器学习方法进行测试吗?例如,我正在考虑使用混合模型进行测试。

除了我的建议之外,任何关于如何最好地处理这个问题的建议都将不胜感激。

谢谢

1个回答

无需进行样品测试。

一个客户可能已经收到了 1 到 n - 1 的许多贷款。要预测在时间 t(n) 的第 n 个请求的违约率,您可以使用直到 t(n) 的任何信息。当用户在 t(1) 之前没有交易历史时,系统无法预测她的违约率;除了可能基于她的年龄、收入等。但是,对于 t(2) 的下一个贷款请求,系统可以使用 t(1) 和 t(2) 之间的交易,但仍然不能使用 t( 2)。对于 t(n) 的任何特定预测,绝不能使用 t(n) 之后发生的事件。

关于“它不涉及使用在预测时间不可用的信息”,它确实涉及使用在预测时间 t(n) 不可用的信息,因为系统正试图利用在 t(n) 之后发生的事务。