如果变量转换后仍然存在异常值怎么办?

数据挖掘 特征工程 离群值 转型
2022-02-15 01:16:00

我有一个分布偏斜的变量。

在此处输入图像描述

我应用了 BoxCox 变换,现在变量遵循高斯分布。但是,如下图的箱线图所示,异常值仍然存在。

在此处输入图像描述

我的问题是:

虽然经过变换后,变量分布接近高斯分布,但如果还有异常值,我们还是应该选择这种变换吗?

还是我们应该决定使用其他技术(例如离散化)来捕获所有异常值?

1个回答

在所有情况下都没有正确的方法。我从统计和业务问题的角度处理了异常值。

  1. 业务正在扩展到并期望在这些“异常”领域有更多人的细分市场中的异常值?在这种情况下,这些不是业务视图的异常值,可能应该保留。
  2. 业务正在撤出的细分市场中的异常值是否预计这些领域的人数会减少。可能想摆脱这些记录。
  3. 这些异常记录只是此功能或其他功能中的异常记录吗?如果它们与 1 个特征的平均值相差甚远,则可能希望保留它们。
  4. 离散化——我不是粉丝,因为模型正在丢失信息。但是可以添加一个指示变量并尝试模型。可能想尝试多种桶方法,但我仍然认为模型应该看到真实数字。
  5. 我构建的模型总是让这些异常值正确或不正确,无论它们是否在模型训练中。所以包括这些是一个有争议的问题。想要确保它们在验证集中进行检查。制作异常值验证集。
  6. 无论模型如何,企业对待这些人的方式是否不同。例如,如果这是一种营销模式,那么无论该模式说什么,企业都可能针对高收入人群。因此,将这些包括在模型中可能会惩罚低收入人群。尝试使用和不使用构建模型。
  7. 我确信我错过了我做过的其他技术。异常值并不意味着错误,也不意味着正确。可以从纯粹的统计角度来看待它们。但是在构建模型时,由于我们应该了解一些业务问题并可以接触到主题专家,因此我们可能会做出更明智的决定。并且总是测试。可能需要构建多个模型。