我正在研究一个分类模型,其中我的目标类是一个有偏见的类,其类形状为
0 1
20694 101
我的大部分功能都是触发某个事件的次数。在探索这些特征时,我发现我的目标变量只与某些特征值相关联。例如如下
0 1
Feature V1
0 12014 75
1 6490 16
2 1177 6
3 402 2
4 176 2
5 100
6 84
7 61
8 39
9 23
10 26
11 14
正如我们所看到的,只有当 V1 的值为 0 到 4 时才会出现 1。因此,对于任何看不见的数据,只要 V1 的值大于 4,我的模型总是会预测为 0。
我想过使用bestNormalize
包,但是它建议的转换在应用于数据时会失去相关性。
任何建议都会有很大帮助。
非常感谢提前!!
PS如果需要,很高兴分享数据。