在信用风险行业(以及整个金融行业,至少在英国),有一种非常普遍且被接受的“正确”方法来构建记分卡。
一般框架似乎是:
- 对预测变量进行分箱,合并具有相似证据权重 (WOE) 值的相邻分箱,通常旨在实现目标和预测变量之间的单调关系
- 过滤方法变量选择(计算每个预测变量的信息值 [IV],删除那些具有低 IV 的变量)
- WOE 转换这些预测变量(目标编码),将逻辑回归模型拟合到转换后的数据
我想知道是否有人知道为什么要遵循这种做法?这似乎是一种过时且异常具体的方法,而且我从未在任何其他行业中看到过分箱/WOE 编码/IV 过滤的全面方法。我认为回归任务的等效方法是在将所有预测变量用于线性回归之前对它们进行分箱和均值编码,但我从未见过/听说过在任何地方使用过这种方法,包括信用风险。
我在下面扩展我的困惑:
- 为什么要装箱?在我看来,分箱数字预测器会丢弃信息,并为流程增加了如此多的任意性和手动工作,虽然它可以帮助处理异常值和缺失值而不必考虑太多,但创建标志来捕获缺失数据、中值也是如此插补和winsorization,所有这些都可以很容易地自动化,并且仍然可以选择添加样条项、交互项等。
- 为什么要使用信息价值?如果有必要对变量选择应用过滤方法(例如,您有数千个预测变量),为什么不评估许多 1 变量逻辑回归模型的性能(例如样本外 AUC)并在此基础上进行过滤,这将有与目标指标保持一致的好处
- 对于一个 bin,WOE 只是该 bin 的对数几率(加上一个常数),所以我想这将是一种适合逻辑回归的目标编码形式?一旦您已经对数据进行了分箱(如果目标编码实际上提高了性能),这对我来说确实有意义,但我仍然想知道为什么我们首先将预测变量分箱?大多数消息来源说要在预测变量和目标之间“建立单调关系”,但是没有非线性变换和交互项的逻辑回归无论如何都可以做到,不是吗?我觉得这只会使模型解释复杂化,而不是在原始预测变量上拟合逻辑回归模型,并且使用任何形式的目标编码总是意味着你必须更加小心目标泄漏
这种方法似乎被所有大银行和金融机构使用,但在为逻辑回归预处理数据时很少在其他地方使用,这一定是有原因的。我是否缺少任何明显的优势或原因,或者这种方法如何变得如此普遍存在历史原因?