去除异常值 - 市场篮子分析

数据挖掘 数据清理 关联规则 离群值
2022-03-06 09:18:58

我正在考虑是否应该删除异常值。我正在尝试找到通常一起使用的标签。想象一下,我有以下数据集。第一列是 Tag_ID,第二列是使用该标签的人数。

1   3472034  
2   1277918  
3   1249839  
4   1010770  
5   915099  
6   898292  
7   636792  
8   604352  
9   555673  
10  298495  
11  291511  
12  211074  
13  200868  
... 

(这是从我的实际数据集中复制的)。

我的问题是:当一个 Tag 实例比另一个更频繁时,我应该删除它吗?这被认为是一种好习惯吗?

非常感谢!

1个回答

由于我无法发表评论要求澄清,所以我在这里问。您考虑删除数据集中最常见的值的原因是什么?如果第二列实际上代表使用频率,您可能不应该删除它,我认为丢弃该信息是不合逻辑的。话虽如此,如果它是一个“意义不大”的词(例如 a、an 等),您可能会考虑删除该标签。

您能否就您要实现的目标提供更多背景信息?

一般来说,找出异常值的一种方法是查看超出分布四分位间距 1.5 倍的点,即数据中的频率计数。

快速思考一下,您是否尝试过聚类以查找相似的标签?您正在考虑通过哪些方式来查找相似标签?