特点是资本收益和资本损失,但极少数人有其中之一。据我所见,这可能并没有太大的区别,尽管我不确定我将如何进行甚至标准化或诸如此类的这些功能:
age wgt sex gain loss hpw
0 0.379310 0.119825 1 2174 0 -0.078664
1 0.568966 0.131898 1 0 0 -2.327679
2 0.362069 0.407596 1 0 0 -0.078664
收益可能会飙升至 100,000 倍,考虑到我预测是否有人会赚到超过 5 万美元,这绝对是很重要的,尽管它们的发生率如此之低,接近 3-5%,我不知道我该怎么做关于实施它们。考虑到几乎每个人的两个结果都为 0,我怀疑输入数据是一个好主意。
另外要注意的是我总共有 15 列(get_dummies() 更多)。