处理分箱特征

数据挖掘 熊猫 数据清理
2022-03-05 05:39:05

我是数据科学领域的新手,并试图在执行任何建模之前找出处理数据质量问题的方法。

我正在研究房屋租赁价格数据集。在此数据中,有一个名为Total Squarefeet的功能。我在这里面临的问题是,在 12000 条记录中,200 条记录有一个范围,例如 1200 - 1800、或 850 - 855 或什至,这些范围之间也有随机差异。其余的都是简单的数字。有没有办法正确处理这种数据。任何人都可以帮助我或指导我到一个我可以学习和使用技术来处理这些数据的地方。提前致谢。

1个回答

您使用的列必须是字符串数据类型。首先过滤包含“-”的数据集并创建另一个数据框。在这个新的数据帧上执行拆分字符串操作并创建两个不同的列并将它们转换为整数。现在用两列创建另一个具有平均值或任何您喜欢的列。重命名列并删除不必要的列。将其合并回数据框。