在机器学习的背景下,异常值和异常值有什么区别。我的理解是它们都指的是同一件事。
异常值和异常值之间的区别
这两个术语是同义词,根据:
Aggarwal, Charu C. 异常值分析。施普林格纽约,2017,doi: http ://dx.doi.org/10.1007/978-3-319-47578-3_1
第1页的报价:
异常值在数据挖掘和统计文献中也被称为异常、不一致、偏差或 异常。
粗体文本不是原始文本的一部分。
半开玩笑的回答:
异常值:您在数据中可以预见的值,表明您的模型无法正常工作
异常:一个值,您在数据中发现的所有可能性都表明您的模型确实可以正常工作
一个更严肃、不那么神秘的答案:
异常值的概念始于构建对数据做出假设的模型的问题。异常值通常是模型无法正确描述数据的指标,因此我们应该质疑模型的结果或数据的质量。
异常的概念始于理论世界之外和应用世界之内:我们想在数据中寻找不寻常的行为,有时是因为我们有兴趣寻找某人试图隐藏的行为(比如病毒在电子邮件)。问题是,由于人们试图隐藏他们在做什么,我们真的不知道要寻找什么。因此,我们采用一组“好”数据,并确定我们在新数据集中发现的任何看起来不“好”的东西都是异常情况,值得我们花时间更详细地检查。通常,寻找异常意味着在新数据集中寻找异常值。但请注意,这些值在您的新数据集中可能非常常见,尽管在旧数据集中很少见!
总而言之,这两个概念在它们背后的统计数据方面非常相似(即,给定拟合模型的异常值),但从不同的角度提出这个想法。此外,当我们谈论异常值时,我们通常指的是用于拟合我们模型的数据中的异常数据点,而异常通常是指数据集中用于拟合我们模型的数据之外的异常数据点。
注意:这个答案是基于我如何看到这两个经常使用的术语而不是正式的定义。用户体验可能不同。
异常是在给定基本分布的情况下无法解释的结果(如果我们的假设正确,这是不可能的)。给定基本分布(不可能),异常值是不太可能发生的事件。
这些术语在很大程度上以可互换的方式使用。“异常值”是指超出规范的东西——所以它是“异常的”。但我的印象是“异常值”通常用于非常罕见的观察。在统计学中,在正态分布上,您会认为 3 sigma 是异常值。也就是说,99.7% 的对象应该是“正常的”。“异常”的使用更加自由。如果您的网站突然有数百万访问者,这些访问者并不罕见。然而,访问者的突然增加仍然是“异常”的,而每个访问者都不是“异常值”。
我可能在本文中看到讨论了这些差异,但不幸的是,我现在无法访问它。
统计分析和数据挖掘,第 5 卷,第 5 期,2012 年 10 月,第 363-387 页 高维数值数据中无监督异常值检测的调查