我知道数据中存在异常值,但它们的行为与剩余数据点有很大不同。但是今天在学习朴素贝叶斯时,他们提到朴素贝叶斯会受到异常值的影响。但是数据集中的哪些点被称为异常值,我们如何识别它们?
文本数据集中的异常值是什么意思。如何检测它们?
数据挖掘
离群值
2022-02-27 11:07:43
3个回答
我通过以下方式定义异常值。
- 它可能是错误的数据输入(例如,人为输入错误)
- 它可以是具有不相关值的数据(例如,总条目计算为上述列的总和。此数据有时可能会产生误导,因此应将其删除)
- 它可以是所有或大部分字段为空白的数据条目(例如,数据中所有字段为空白的行。该行可能对分析没有任何贡献)
- 它可能是超出其他数据范围的极端值(例如,当我们计算人类的年龄时,任何年龄(例如)超过 120 岁的人都是极端情况,根据我们的分析可以忽略目标)
在我看来,在训练数据中没有看到的单词可以被认为是异常值,因为在朴素贝叶斯的情况下,它导致单词的概率为零。
另外,我认为语料库中过于频繁和过于罕见的词也可以被视为异常值,因为它们会影响模型。
由于大多数模型都是使用预训练嵌入构建的,因此文本数据中的异常值问题并不那么突出。这是因为训练是对数百万个单词/句子和异常值进行的,如果有的话没有效果。
谈到具体的问题陈述,文本数据中的异常值可能意味着很多事情。例如,假设您正在整理与“技术”相关的所有新闻文章。现在,如果该语料库中有一篇“健康”文章,那么这是一个异常值。信用卡欺诈检测是我们训练模型以检测文本数据中的异常值的另一个领域。
识别这些异常值的典型方法是通过聚类。技术因纸张而异