如何从箱线图中的每个组中删除异常值?

数据挖掘 Python 朱庇特
2022-02-27 16:39:46

我想删除箱线图中每个 ID 的所有异常值。我尝试了以下代码:

'''

    AB_Q1 = combine['AB_MEAN'].quantile(0.25)
    AB_Q3 = combine['AB_MEAN'].quantile(0.75)
    AB_IQR = AB_Q3 - AB_Q1

    AB_filter = (combine['AB_MEAN'] >= (AB_Q1 - 1.5 * AB_IQR)) & (combine['AB_MEAN'] <= (AB_Q3 + 1.5 * AB_IQR))
    AB_remove = combine.loc[AB_filter]

    combine.drop(combine.loc[AB_filter].index, inplace=True)

    AB = sns.boxplot(x=combine['FEEDER'], y=combine['AB_MEAN'], hue='FEEDER', data = combine)

'''

这适用于删除特定数据列的所有异常值,但删除了太多需要的信息。

第一个图像类似于删除数据之前的原始数据图。 在此处输入图像描述

下图显示了删除数据后发生的情况。 在此处输入图像描述

如第一张图片所示,有 6 个唯一标识符,每个标识符有 4500 多行数据。

0个回答
没有发现任何回复~