机器算法验证 - 什么是“拒绝推理”以及如何使用它来提高模型的准确性？ - 吾爱随笔录

什么是“拒绝推理”以及如何使用它来提高模型的准确性？

机器算法验证物流

2022-03-20 06:59:45

谁能详细解释一下：

拒绝推理是什么意思？
如何使用它来提高我的模型的准确性？

我确实有在信用卡申请中拒绝推理的想法，但在考虑使用它来提高我的模型的准确性时遇到了困难。

2个回答

在信用模型构建中，拒绝推断是推断在申请过程中被拒绝的信用账户的表现的过程。

在构建应用信用风险模型时，我们希望构建一个具有“透支性”适用性的模型，即我们将所有的应用数据输入到信用风险模型中，模型输出一个风险等级或概率默认的。使用回归从过去的数据构建模型时的问题是，我们只知道过去接受的应用程序的帐户性能。但是，我们不知道拒绝的表现，因为在申请后我们将它们送回了门外。这可能会导致我们模型中的选择偏差，因为如果我们只在模型中使用过去的“接受”，该模型可能在“通过门”人群中表现不佳。

有很多方法可以处理拒绝推理，所有这些方法都存在争议。我将在这里提到两个简单的。

“将过去的拒绝定义为不良”
打包

“将过去的拒绝定义为不良”只是获取所有被拒绝的应用程序数据，而不是在构建模型时将其丢弃，而是将它们全部分配为不良数据。这种方法使模型严重偏向过去的接受/拒绝策略。

“包裹”稍微复杂一点。它包括

用过去的“接受”建立回归模型
将模型应用于过去的拒绝，为它们分配风险评级
使用每个风险评级的预期违约概率，将被拒绝的申请分配为好或坏。例如，如果风险评级有 10% 的违约概率，并且有 100 个被拒绝的申请属于该风险评级，则将 10 个拒绝分配给“坏”，将 90 个拒绝分配给“好”。
使用接受的应用程序重建回归模型，现在使用被拒绝应用程序的推断性能

在步骤 3 中有不同的方法来分配好或坏，这个过程也可以迭代应用。

如前所述，拒绝推理的使用是有争议的，很难直接回答如何使用它来提高模型的准确性。在这个问题上，我将简单地引用其他一些人的话。

Jonathan Crook 和 John Banasik，拒绝推理真的能提高应用评分模型的性能吗？

首先，即使在很大比例的申请人被拒绝的情况下，仅对那些被接受的人进行参数化的模型的改进空间似乎也很小。在拒绝率不是很大的地方，这个范围似乎确实很小。

David Hand，“信用操作中的直接推理”，出现在信用评分手册中，2001 年

已经提出并使用了几种方法，虽然其中一些方法显然很差，不应该推荐，但除非获得额外的信息，否则没有唯一的普遍适用的最佳方法。也就是说，最好的解决方案是获取更多关于那些落入拒绝区域的申请人的信息（也许通过向一些潜在的拒绝提供贷款）。

@GabyLP 在之前的评论中。根据我的经验，您可以将此类客户分成两部分，并根据概率为这两个部分分配权重。例如，如果一个被拒绝的客户有 10% 的 PD，您可以从这个客户中选择两个客户。第一个具有目标变量 1 和权重 0.1，第二个具有目标变量 0 和权重 0.9。

整个接受的客户样本的权重 == 1。

虽然这适用于逻辑回归，但不适用于基于树的模型。

其它你可能感兴趣的问题

上一篇给定过去购买的数据，可以使用什么算法来预测消耗品的使用情况？下一篇均值平方的无偏正估计量