非常重要的功能,但很少输入

数据挖掘 机器学习 Python 数据框 特征缩放
2022-02-22 18:51:59

特点是资本收益和资本损失,但极少数人有其中之一。据我所见,这可能并没有太大的区别,尽管我不确定我将如何进行甚至标准化或诸如此类的这些功能:

     age        wgt       sex   gain        loss         hpw        
0   0.379310    0.119825    1   2174           0         -0.078664          
1   0.568966    0.131898    1   0              0         -2.327679          
2   0.362069    0.407596    1   0              0         -0.078664

收益可能会飙升至 100,000 倍,考虑到我预测是否有人会赚到超过 5 万美元,这绝对是很重要的,尽管它们的发生率如此之低,接近 3-5%,我不知道我该怎么做关于实施它们。考虑到几乎每个人的两个结果都为 0,我怀疑输入数据是一个好主意。

另外要注意的是我总共有 15 列(get_dummies() 更多)。

1个回答

基于树的模型,尤其是允许输入中缺失数据的模型,似乎是一个不错的选择:树可以将大量资本收益分离出来(大概将一个几乎纯节点与其他节点分开)。

还要考虑一些更基本的事情:只需为那些获得大收益的人硬编码一个例外,并为其余的人建模。