什么是“拒绝推理”以及如何使用它来提高模型的准确性?

机器算法验证 物流
2022-03-20 06:59:45

谁能详细解释一下:

  1. 拒绝推理是什么意思?
  2. 如何使用它来提高我的模型的准确性?

我确实有在信用卡申请中拒绝推理的想法,但在考虑使用它来提高我的模型的准确性时遇到了困难。

2个回答

在信用模型构建中,拒绝推断是推断在申请过程中被拒绝的信用账户的表现的过程。

在构建应用信用风险模型时,我们希望构建一个具有“透支性适用性的模型,即我们将所有的应用数据输入到信用风险模型中,模型输出一个风险等级或概率默认的。使用回归从过去的数据构建模型时的问题是,我们只知道过去接受的应用程序的帐户性能。但是,我们不知道拒绝的表现,因为在申请后我们将它们送回了门外。这可能会导致我们模型中的选择偏差,因为如果我们只在模型中使用过去的“接受”,该模型可能在“通过门”人群中表现不佳。

有很多方法可以处理拒绝推理,所有这些方法都存在争议。我将在这里提到两个简单的。

  • “将过去的拒绝定义为不良”
  • 打包

“将过去的拒绝定义为不良”只是获取所有被拒绝的应用程序数据,而不是在构建模型时将其丢弃,而是将它们全部分配为不良数据。这种方法使模型严重偏向过去的接受/拒绝策略。

“包裹”稍微复杂一点。它包括

  1. 用过去的“接受”建立回归模型
  2. 将模型应用于过去的拒绝,为它们分配风险评级
  3. 使用每个风险评级的预期违约概率,将被拒绝的申请分配为好或坏。例如,如果风险评级有 10% 的违约概率,并且有 100 个被拒绝的申请属于该风险评级,则将 10 个拒绝分配给“坏”,将 90 个拒绝分配给“好”。
  4. 使用接受的应用程序重建回归模型,现在使用被拒绝应用程序的推断性能

在步骤 3 中有不同的方法来分配好或坏,这个过程也可以迭代应用。

如前所述,拒绝推理的使用是有争议的,很难直接回答如何使用它来提高模型的准确性。在这个问题上,我将简单地引用其他一些人的话。

Jonathan Crook 和 John Banasik,拒绝推理真的能提高应用评分模型的性能吗?

首先,即使在很大比例的申请人被拒绝的情况下,仅对那些被接受的人进行参数化的模型的改进空间似乎也很小。在拒绝率不是很大的地方,这个范围似乎确实很小。

David Hand,“信用操作中的直接推理”,出现在信用评分手册中,2001 年

已经提出并使用了几种方法,虽然其中一些方法显然很差,不应该推荐,但除非获得额外的信息,否则没有唯一的普遍适用的最佳方法。也就是说,最好的解决方案是获取更多关于那些落入拒绝区域的申请人的信息(也许通过向一些潜在的拒绝提供贷款)。

@GabyLP 在之前的评论中。根据我的经验,您可以将此类客户分成两部分,并根据概率为这两个部分分配权重。例如,如果一个被拒绝的客户有 10% 的 PD,您可以从这个客户中选择两个客户。第一个具有目标变量 1 和权重 0.1,第二个具有目标变量 0 和权重 0.9。

整个接受的客户样本的权重 == 1。

虽然这适用于逻辑回归,但不适用于基于树的模型。