我正在使用逻辑回归进行分类。为了减少特征和提高精度,我使用了证据权重技术。我也需要为此使用python。由于没有现成的分级算法,我正在寻找分级规则,我遇到了这个:
http://www.m-hikari.com/ams/ams-2014/ams-65-68-2014/zengAMS65-68-2014.pdf
这篇论文说:
一个好的分箱算法应该遵循以下准则:
缺失值单独分箱。
每个 bin 应包含至少 5% 的观测值。
没有 bin 有 0 说明好坏
我不明白第二个条件的必要性是什么,即每个箱应包含至少 5% 的观察值?为什么必须在每个 bin 中至少有 5% 的观察?我不能在每个垃圾箱中至少有 2% 或在每个垃圾箱中至少有 10%。
有人告诉我,如果我们在每个 bin 中考虑 5%,将会有更多的分数。要将已经连续的数据变成分类数据,为什么还要有更多的点呢?