机器算法验证 - 什么是“边缘人”？ - 吾爱随笔录

什么是“边缘人”？

机器算法验证术语异常值

2022-03-23 15:54:14

我最近收到了一篇期刊投稿的审稿意见，要求我

报告我如何处理异常值和边缘值。

我没有听说过“fringeliers”这个词，当我用谷歌搜索时，有一些文章，但没有简明的定义。所以我认为最好有这样的问题，可以澄清什么是“边缘”，并为我自己和未来提出相同问题的人提供一个定义。

2个回答

Fringeliers 似乎被定义为一种不太极端的异常值。即分布边缘的数据。

例如，如果您为离群值定义一个截止值，边缘值可能被操作化为接近截止值任一侧的那些值（例如，对于 3 SD 截止值，距离平均值 2.7 和 3.3 SD 之间）。

Osborne 和 Overbay (2008) 写道：

尽管定义各不相同，但异常值通常被认为是远远超出变量或总体规范的数据点（例如，Jarrell，1994；Rasmussen，1988；Stevens，1984）。Hawkins (1980) 将异常值描述为“与其他观察结果有很大差异，以至于引起人们怀疑它是由不同机制产生的”（第 1 页）。异常值也被定义为“在研究人员眼中可疑”（Dixon，1950，第 488 页）和污染物（Wainer，1976）的值。

并继续从 Wainer (1976) 中引入术语“fringelier”

Wainer (1976) 还引入了“fringelier”的概念，指的是“经常发生的不寻常事件”（第 286 页）。这些点位于平均值的三个标准差附近，因此可能对参数估计产生不成比例的强烈影响，但由于它们相对靠近配送中心，因此不像普通异常值那样明显或容易识别。

一些例子：

在某些情况下，异常值表明数据无效。例如，如果一个男人的身高记录为 8 英尺高（比如比平均值高 6.5 SD），这可能是一个无效的测量值。相反，如果某人的身高记录为 6 英尺 10 英寸高（高于平均值 3 SD - 一个边缘），这可能是一个有效的测量值，但同样，它可能表明测量存在问题，因为这种情况非常罕见。关键是确定一个值是否无效变得越来越困难，这个值变得越不极端。

在其他情况下，异常值是一个问题，因为它们对参数估计有过度的影响，特别是在使用使用最小二乘等的标准统计方法时。因此，边缘可能比大多数情况产生更大的影响，但关于是否保留数据用于建模目的的决定可能不太清楚。

参考

Osborne, J. 和 Overbay, A. (2008)。数据清理的最佳实践：异常值和“边缘值”如何增加错误率并降低结果的质量和精度。在 Osborne, J. 定量方法中的最佳实践（第 205-213 页）。加利福尼亚州千橡市：SAGE Publications, Inc. doi：10.4135/9781412995627
Wainer, H.Robust 统计：调查和一些处方 1(4)285-312(1976)。

我认为您需要考虑位于截止值以下的数据点的边缘频率。如果边缘与“有效”数据的比例很高（基于某些因素），则可能是不切实际地定义了截止值。想象一下，你在一个帐篷里，而该地区唯一的熊在 3 英里外；但是有500个！:)

其它你可能感兴趣的问题

上一篇解释 GAM 系数下一篇变分自编码器的输出是可以采样的分布，还是直接采样？