我正在考虑是否应该删除异常值。我正在尝试找到通常一起使用的标签。想象一下,我有以下数据集。第一列是 Tag_ID,第二列是使用该标签的人数。
1 3472034
2 1277918
3 1249839
4 1010770
5 915099
6 898292
7 636792
8 604352
9 555673
10 298495
11 291511
12 211074
13 200868
...
(这是从我的实际数据集中复制的)。
我的问题是:当一个 Tag 实例比另一个更频繁时,我应该删除它吗?这被认为是一种好习惯吗?
非常感谢!