通过聚类哪个预处理步骤更好来去除噪声?

数据挖掘 聚类 预处理 离群值 噪音
2022-02-09 16:02:47

我正在处理分类任务。该数据集是一个关于机器学习的 UCI 数据集,包含 200 个观察值和 2 个类。

我的模型的一部分包括以下预处理步骤:

  1. 删除缺失值
  2. 在 0 和 1 之间标准化
  3. 去除异常值
  4. 平滑
  5. 从数据中去除趋势
  6. SMOTE

我想使用聚类方法来删除嘈杂的数据点。问题是,这应该发生在哪一步?

1个回答

查看您的不同步骤,重要的是检查哪个步骤会受到异常值的影响。

  1. 删除缺失值不受影响,因为此步骤不依赖于数据集中存在(或不存在)的其他数据点。
  2. 但是,规范化您的数据是。实际上,假设您的异常值包含极值,这将影响非异常值数据点的归一化值。

因此,直观地说,我会在一开始或在第 1 步之后执行您的噪声消除。

最终,您应该看到什么更适合您的任务。也许删除异常值并没有您期望的那么大。与您的预处理相同。随意尝试!