目前我有一个数据集,我正在尝试预测是否有人会拖欠银行贷款。
数据集相当棘手。它涵盖了那些过去违约的人,但也追踪了那些有当前贷款的人。所以我们不知道他们将来是否会违约。
这意味着目标变量(默认值,非默认值)有一个唯一值,即 1。没有任何观察可以描述 0 类。
假设我不能使用外部数据集,这个问题的解决方案是什么?如果我没有可以比较的东西,我如何才能最好地理解那些违约的人?
目前我有一个数据集,我正在尝试预测是否有人会拖欠银行贷款。
数据集相当棘手。它涵盖了那些过去违约的人,但也追踪了那些有当前贷款的人。所以我们不知道他们将来是否会违约。
这意味着目标变量(默认值,非默认值)有一个唯一值,即 1。没有任何观察可以描述 0 类。
假设我不能使用外部数据集,这个问题的解决方案是什么?如果我没有可以比较的东西,我如何才能最好地理解那些违约的人?
假设我不能使用外部数据集,这个问题的解决方案是什么?如果我没有可以比较的东西,我如何才能最好地理解那些违约的人?
如果您只想将此数据用作分类任务,则无法执行此任务。您可以通过生成带有标签 0 的假数据来解决此问题(您可以考虑默认的参数值)。
但是您可以尝试聚类算法(如 k-means)并找到特定客户端的组。也许其中一个组是其默认组。
要扩展fuwiak 的答案,您可以对当前贷款组进行聚类,将集群声明为类,然后查看默认集中的一个好部分是否被分类到某个类/集群中。如果是,则此类可预测default。
另一种方法是进行异常检测:使用您的默认设置来训练检测器并将其应用于当前的贷款数据集。“异常”是那些不太可能违约的。