如何使用箱线图去除异常值?
数据挖掘
时间序列
熊猫
麻木的
离群值
海运
2021-09-15 08:01:28
3个回答
Seaborn 使用四分位间距来检测异常值。您需要做的是在要删除异常值的列中重现相同的功能。在 Pandas 中很容易做到。
如果我们假设您的数据框被调用df
并且您要过滤的列基于AVG
,那么
Q1 = df['AVG'].quantile(0.25)
Q3 = df['AVG'].quantile(0.75)
IQR = Q3 - Q1 #IQR is interquartile range.
filter = (df['AVG'] >= Q1 - 1.5 * IQR) & (df['AVG'] <= Q3 + 1.5 *IQR)
df.loc[filter]
如果您需要删除异常值并且需要它来处理分组数据,而不需要额外的复杂性,只需showfliers
在函数调用中将参数添加为 False 即可。它继承自 matplotlib。
showfliers=False
您可以在 seaborn 中简单地将 showfliers = False。
其它你可能感兴趣的问题