异常值过多时如何处理?

机器算法验证 机器学习 数据转换 异常值 箱形图 数据预处理
2022-03-28 11:00:45

可变票价的箱线图 我附上了一个名为 Fare(旅程)的变量的箱线图。这是一个具有异常值的连续变量。根据一些关于异常值的文章,我了解到任何高于/低于晶须的数据点都是异常值。我还了解到,晶须距离是通过 75th percentile + 1.5*(Inter-Quartile Range) 计算的。

在我附上的案例中,您可以看到异常值太多(200/891 个观察值)。如果我用缺失值替换所有这些点(可以稍后估算),它不会产生偏差吗?很少有文章要求考虑 3*IQR 而不是 1.5*IQR。我应该那样做吗?异常值过多时如何处理?

1个回答

这些不是异常值。我是一名经济学家,根据您的评论,这就是数据的外观。对于初学者来说,这是一个糟糕的数据集。

你所看到的是所谓的“价格歧视”。特别是三级价格歧视。另一个现实世界的例子,虽然是一级价格歧视的例子,是苹果的 i-phone。当它第一次出现时,他们限制了生产。结果,供给曲线和需求曲线不相交。只有那些最看重它的人才会尝试购买它并且他们愿意支付最多的钱。然后他们生产更多,但仍然不足以使供给曲线和需求曲线满足。人们排队,最愿意付钱的人得到了电话。他们继续这个过程,直到价格跌至均衡价格。

在这样做的过程中,他们从每个人身上提取了尽可能多的收入。您需要提取此数据中的隐藏结构。这可能与平方英尺、设施和位置有关。你确实需要去问一个新问题,因为这不会让你到达你想要去的地方。数据中没有异常值。

如果不仔细观察它,它可能是一个帕累托分布,并不是所有的帕累托分布都有一个均值,更不用说你想让初学者看到的很好的属性了。