我正在做一个涉及替换一组数据中缺失值的项目(第一次这样做)。这涉及使用两种方法replacement by mean
并replacement by median
填写缺失值。使用这两种方法的数据的最小值、中值、最大值、均值和标准差的结果之间没有太大差异,我想知道哪种方法更好,以及如何使用结果产生了?
哪个更好,均值替换和中值替换?
机器算法验证
意思是
中位数
数据插补
2022-03-15 13:44:18
2个回答
它始终取决于您的数据和您的任务。
如果有一个数据集有很大的异常值,我会更喜欢中位数。例如:99% 的家庭收入低于 100,1% 的家庭收入高于 500。
另一方面,如果我们处理顾客给干洗店的衣服磨损情况(假设干洗店的操作员直观地填写了这个字段),我将用磨损的平均值来填补缺失。
最好从数据理解开始,然后这篇文章将是一个有用的起点。
其它你可能感兴趣的问题