我有兴趣做一些特征缩放以尝试从我的数据中梳理出一些东西(按结果显示的箱形图显示 25/50/75 分位数非常相似;某些变量比其他变量具有更多的“异常值”。我遇到的问题但是是否有很多缺失的数据。我想用-9999之类的东西替换这些NA(它们是数字)。我应该先缩放我的数据然后将-9999分配给NA还是先分配然后缩放?
具有缺失值的特征缩放数据
数据挖掘
特征缩放
缺失数据
2022-03-06 08:03:45
2个回答
嗯 -9999 可能或多或少取决于数据中的可变性(-9999 是一个极端异常值,还是一个中等值,有点接近平均值/中值>)
很大程度上取决于您的数据。像这样的值会使它产生很大的偏差,并且会根据您使用的技术对建模产生很大影响。NA 对班级有偏见吗?考虑对最佳分割进行分类的决策树。他们会检测到偏差(例如,如果您的 NA 的 90% 属于某个类别)并在 -9999 值处拆分以显示该偏差。
还可以查看 Pareto scaling,它强调数据中的中小变化。可能与您正在寻找的路线一致。
如果你不能使用 -inf、NaN 或只是删除数据,你应该尝试一些比使用固定值更好的方法。例如,-1000*min(数据)