离群点和离群点之间的区别

机器算法验证 残差 异常值 异常检测
2022-03-18 20:02:07

我偶然发现了LOF 度量中的术语 inlier (局部异常值因子),我熟悉异常值的术语(基本上是 liers - 与其他实例不同的实例)。

在异常检测的上下文中,“Inliers”是什么意思?以及它如何与异常值相关(不同于)?

1个回答

这是一个术语不一致的领域,令人遗憾的是,混淆了一些统计讨论。“内点”的概念" 通常用于指代有误差的数据值(即,受到测量误差的影响),但仍处于正确测量值分布的“内部”。根据此定义,内部值有两个方面:(1 ) 它位于相关值分布的内部;并且 (2) 它是一个错误值。相反,“离群值”的相应概念通常用于指代任何远离数据尾部的数据值分布,但没有任何定义方面假设它是错误的。这个术语产生了不幸的不一致,其中“inlier”是一个错误的数据点(根据定义),但“outlier”不一定是一个错误的数据点。因此,在这个术语下,“inliers”和“outliers”的结合不对应于所有数据,甚至不对应于所有错误数据。

处理异常值:我已经在此处此处讨论了其他问题中的异常值处理,但为方便起见,我将在此处重复其中的一些评论。离群点是远离分布中的大部分其他点的点,“离群点”的诊断是通过将数据点与某些假设的分布形式进行比较来完成的。虽然异常值偶尔会由测量误差引起,但当数据遵循高峰态分布(即肥尾)时,也会出现异常值的诊断,但分析人员会将数据点与假设的低峰态分布形式(例如,正态分布)。

在异常值测试中标记“异常值”实际上只是意味着您使用的模型分布没有足够大的尾部来准确表示观察到的数据。这可能是因为某些数据包含测量误差,或者它可能只是来自带有肥尾的分布。除非有某些理由认为与假设模型形式的偏差构成测量误差的证据(这需要分布假设的理论基础),否则异常值的存在通常意味着您应该更改模型以使用更胖的分布尾巴。本质上很难区分测量误差和作为基础分布一部分的高峰度。

处理inliers(实际上通常涉及处理它们):除非您有指示测量误差的外部信息来源,否则基本上不可能识别“inliers”。根据定义,这些是分布“内部”中的数据点,大多数其他数据都出现在这里。因此,从其他数据点寻找“异常”数据的测试不会检测到它。(在某些情况下,您可以检测到看似位于分布内部的“内部值”,但在考虑到分布的更复杂表示时实际上是“异常值”。在这种情况下,该点实际上是一个异常值,

在极少数情况下,您可能有一个外部信息源,将您的数据子集识别为存在测量误差(例如,如果您正在进行一项大型调查并且您发现您的一位调查员只是在编造他们的数据)。在这种情况下,该子集中位于分布内部的任何数据点都是“内点”,并且通过外部信息已知会受到测量误差的影响。在这种情况下,您通常会删除所有已知错误的数据,即使其中一些是您期望的分布内部的“内点”。这里的要点是,即使数据点不在分布的尾部,它也可能是错误的。