我遇到了三种不同的技术来处理异常值winsorization、裁剪和删除:
Winsorizing:考虑由以下组成的数据集: {92, 19, 101, 58, 1053 , 91, 26, 78, 10, 13, -40 , 101, 86, 85, 15, 89, 89, 28, -5, 41} (N = 20, mean = 101.5) 第 5 个百分位以下的数据介于 -40 和 -5 之间,而第 95 个百分位以上的数据介于 101 和 1053 之间。(数值以粗体显示。)然后进行 90% 的 Winsorization将导致以下结果: {92, 19, 101, 58, 101 , 91, 26, 78, 10, 13, -5 , 101, 86, 85, 15, 89, 89, 28, -5, 41} ( N = 20,平均值 = 55.65)
Clipping:给定一个区间,区间外的值被剪辑到区间边缘。例如,如果指定区间 [0, 1],则小于 0 的值变为 0,大于 1 的值变为 1。
去除:只是把它们拿出来。
我的问题是:
- 在哪些情况下我应该使用哪一个?
- 如果我总是在丢失重要信息时进行优化(我认为这似乎是最好的)?
- 这个模型是依赖的(对于决策树,对于线性......)还是可以将相同的策略应用于所有这些