我最近收到了一篇期刊投稿的审稿意见,要求我
报告我如何处理异常值和边缘值。
我没有听说过“fringeliers”这个词,当我用谷歌搜索时,有一些文章,但没有简明的定义。所以我认为最好有这样的问题,可以澄清什么是“边缘”,并为我自己和未来提出相同问题的人提供一个定义。
我最近收到了一篇期刊投稿的审稿意见,要求我
报告我如何处理异常值和边缘值。
我没有听说过“fringeliers”这个词,当我用谷歌搜索时,有一些文章,但没有简明的定义。所以我认为最好有这样的问题,可以澄清什么是“边缘”,并为我自己和未来提出相同问题的人提供一个定义。
Fringeliers 似乎被定义为一种不太极端的异常值。即分布边缘的数据。
例如,如果您为离群值定义一个截止值,边缘值可能被操作化为接近截止值任一侧的那些值(例如,对于 3 SD 截止值,距离平均值 2.7 和 3.3 SD 之间)。
Osborne 和 Overbay (2008) 写道:
尽管定义各不相同,但异常值通常被认为是远远超出变量或总体规范的数据点(例如,Jarrell,1994;Rasmussen,1988;Stevens,1984)。Hawkins (1980) 将异常值描述为“与其他观察结果有很大差异,以至于引起人们怀疑它是由不同机制产生的”(第 1 页)。异常值也被定义为“在研究人员眼中可疑”(Dixon,1950,第 488 页)和污染物(Wainer,1976)的值。
并继续从 Wainer (1976) 中引入术语“fringelier”
Wainer (1976) 还引入了“fringelier”的概念,指的是“经常发生的不寻常事件”(第 286 页)。这些点位于平均值的三个标准差附近,因此可能对参数估计产生不成比例的强烈影响,但由于它们相对靠近配送中心,因此不像普通异常值那样明显或容易识别。
在某些情况下,异常值表明数据无效。例如,如果一个男人的身高记录为 8 英尺高(比如比平均值高 6.5 SD),这可能是一个无效的测量值。相反,如果某人的身高记录为 6 英尺 10 英寸高(高于平均值 3 SD - 一个边缘),这可能是一个有效的测量值,但同样,它可能表明测量存在问题,因为这种情况非常罕见。关键是确定一个值是否无效变得越来越困难,这个值变得越不极端。
在其他情况下,异常值是一个问题,因为它们对参数估计有过度的影响,特别是在使用使用最小二乘等的标准统计方法时。因此,边缘可能比大多数情况产生更大的影响,但关于是否保留数据用于建模目的的决定可能不太清楚。
我认为您需要考虑位于截止值以下的数据点的边缘频率。如果边缘与“有效”数据的比例很高(基于某些因素),则可能是不切实际地定义了截止值。想象一下,你在一个帐篷里,而该地区唯一的熊在 3 英里外;但是有500个!:)