证据权重算法良​​好分箱的特点

机器算法验证 物流 多重回归 信息论 分箱
2022-04-10 06:43:03

我正在使用逻辑回归进行分类。为了减少特征和提高精度,我使用了证据权重技术。我也需要为此使用python。由于没有现成的分级算法,我正在寻找分级规则,我遇到了这个:

http://www.m-hikari.com/ams/ams-2014/ams-65-68-2014/zengAMS65-68-2014.pdf

这篇论文说:

一个好的分箱算法应该遵循以下准则:

  • 缺失值单独分箱。

  • 每个 bin 应包含至少 5% 的观测值。

  • 没有 bin 有 0 说明好坏

我不明白第二个条件的必要性是什么,即每个箱应包含至少 5% 的观察值?为什么必须在每个 bin 中至少有 5% 的观察?我不能在每个垃圾箱中至少有 2% 或在每个垃圾箱中至少有 10%。

有人告诉我,如果我们在每个 bin 中考虑 5%,将会有更多的分数。要将已经连续的数据变成分类数据,为什么还要有更多的点呢?

1个回答

5% 条件是证据权重 (WOE) 分箱的经验法则。一般来说,一个好的 WOE 分箱还应具有以下特点: 1. WOE 连续分箱单调增加/减少。这是因为 WOE 主要用于逻辑/线性回归模型,该模型假设对数几率和自变量之间存在线性关系。2. 不同 bin 的 WOE 值应尽可能多样化。因此,您应该合并具有相似 WOE 值的连续 bin。

此外,如果您希望选择 WOE 分箱的自动化方法,请查看 R 中的以下包:https ://CRAN.R-project.org/package=woeR 它允许您选择每个类中的最小观察百分比,您要开始使用的 bin 数量以及合并连续 bin 的 woe 截止值。

PS:我在 R 中编写了上述包