在查看了在数据集中输入数据以替换的各种不同方式NaN
与基于阈值删除观察或列的各种不同方式之后,正确的技术仍然非常令人困惑。我知道这必须根据具体情况进行处理,所以我将给出一个上下文:
我有一个约 15k 观察和超过 40 列的数据集。Col1 到 Col6 的缺失值很高,因为数据根本不存在。例如 Col1 可以是 2 次连续交易之间的平均天数。如果客户只购买一次,则平均值为NULL
.
解决此问题的适当技术是什么?
列名 | 数数 | 百分 |
---|---|---|
Col1 | 12000 | 80% |
Col2 | 11500 | 78% |
Col3 | 10200 | 65% |
Col4 | 10000 | 62% |
Col5 | 8000 | 40% |
Col6 | 7500 | 36% |
Col7 | 2000 | 7% |