什么是“边缘人”?

机器算法验证 术语 异常值
2022-03-23 15:54:14

我最近收到了一篇期刊投稿的审稿意见,要求我

报告我如何处理异常值和边缘值。

我没有听说过“fringeliers”这个词,当我用谷歌搜索时,有一些文章,但没有简明的定义。所以我认为最好有这样的问题,可以澄清什么是“边缘”,并为我自己和未来提出相同问题的人提供一个定义。

2个回答

Fringeliers 似乎被定义为一种不太极端的异常值。即分布边缘的数据。

例如,如果您为离群值定义一个截止值,边缘值可能被操作化为接近截止值任一侧的那些值(例如,对于 3 SD 截止值,距离平均值 2.7 和 3.3 SD 之间)。

Osborne 和 Overbay (2008) 写道:

尽管定义各不相同,但异常值通常被认为是远远超出变量或总体规范的数据点(例如,Jarrell,1994;Rasmussen,1988;Stevens,1984)。Hawkins (1980) 将异常值描述为“与其他观察结果有很大差异,以至于引起人们怀疑它是由不同机制产生的”(第 1 页)。异常值也被定义为“在研究人员眼中可疑”(Dixon,1950,第 488 页)和污染物(Wainer,1976)的值。

并继续从 Wainer (1976) 中引入术语“fringelier”

Wainer (1976) 还引入了“fringelier”的概念,指的是“经常发生的不寻常事件”(第 286 页)。这些点位于平均值的三个标准差附近,因此可能对参数估计产生不成比例的强烈影响,但由于它们相对靠近配送中心,因此不像普通异常值那样明显或容易识别。

一些例子:

在某些情况下,异常值表明数据无效。例如,如果一个男人的身高记录为 8 英尺高(比如比平均值高 6.5 SD),这可能是一个无效的测量值。相反,如果某人的身高记录为 6 英尺 10 英寸高(高于平均值 3 SD - 一个边缘),这可能是一个有效的测量值,但同样,它可能表明测量存在问题,因为这种情况非常罕见。关键是确定一个值是否无效变得越来越困难,这个值变得越不极端。

在其他情况下,异常值是一个问题,因为它们对参数估计有过度的影响,特别是在使用使用最小二乘等的标准统计方法时。因此,边缘可能比大多数情况产生更大的影响,但关于是否保留数据用于建模目的的决定可能不太清楚。

参考

  • Osborne, J. 和 Overbay, A. (2008)。数据清理的最佳实践:异常值和“边缘值”如何增加错误率并降低结果的质量和精度。在 Osborne, J. 定量方法中的最佳实践(第 205-213 页)。加利福尼亚州千橡市:SAGE Publications, Inc. doi:10.4135/9781412995627
  • Wainer, H.Robust 统计:调查和一些处方 1(4)285-312(1976)。

我认为您需要考虑位于截止值以下的数据点的边缘频率。如果边缘与“有效”数据的比例很高(基于某些因素),则可能是不切实际地定义了截止值。想象一下,你在一个帐篷里,而该地区唯一的熊在 3 英里外;但是有500个!:)