机器算法验证 - 如何判断 Theil-Sen 异常值？ - 吾爱随笔录

如何判断 Theil-Sen 异常值？

机器算法验证回归线性模型异常值强大的

2022-04-10 09:59:32

在使用 Theil-Sen 估计器获得稳健的线性回归（在我的情况下为 2D）后，我想决定一组异常点。

考虑到 Theil-Sen 解决方案，是否有一种自然的方法可以做到这一点？还是只是简单地取所有残差超出任意截止值的点？

1个回答

我假设您熟悉估算器的故障点的概念。异常值识别规则也存在类似的概念（参见 [3]）。

(a) Theil-Sen 估计器在 2D 数据处的分解点是。 $1-\frac{1}{\sqrt{2}}$
(b) 此外，2D Theil-Sen 估计量是允许残差的（意味着它仅取决于通过拟合残差向量的数据）。

表示拟合残差的由于 (a) 和 (b) 将残差大于分位数将确保您的异常值识别规则具有与其所基于的估计器相同的分解点。使用较高的值会降低（您的异常值识别规则的）分解点，而使用较低的值不会增加它（您的异常值识别规则的分解从下方受您使用的拟合分解点的限制）识别异常值）。 $\pmb e=\{e_i\}_{i=1}^n$ $n$ $q_h=1-(1-\frac{1}{\sqrt{2}})$ $|\pmb e|=\{|e_i|\}_{i=1}^n$ $q_h$ $q_h$

增加将降低将非异常观测值误分类为异常值的风险（设置将确保没有非异常观测值被误分类为异常值）。但是您可以通过使用一步重称 ( 1 ) 获得更好的结果。通过一步重新加权，您可以将非异常观察值误分类为异常值的渐近风险设置为任何小值，而不会影响异常值识别规则的分解点（尽管您将 $q_h$ $q_h=1$ $\epsilon$ 增加离群值必须与可识别的大量数据的最小距离，这个距离与离群值识别规则的分解点的概念无关）。作为成本，您需要添加关于残差向量分布的假设。

在任何情况下，对于高于阈值值，在两种风险（将非异常数据点错误分类为异常值和将异常值错误分类为非异常数据点）之间存在一系列可接受的权衡，对应于初始估计量的分解点。对于基于 Theil-Sen 估计器的异常值识别规则，。 $q_h$ $q_h^*$ $q_h^*=1-(1-\frac{1}{\sqrt{2}})$

从统计的角度来看，使用 Theil-Sen 估计器来查找异常值是次优的。通过使用更现代的方法（例如 FastLTS），您将获得更好的权衡条件以及对异常值具有更高鲁棒性的选择。FastLTS 还包括一个重新加权步骤，但基于比 Theil-Sen 拟合更稳健的初始估计（因此 FastLTS 的可以高达）。最近的评论见2。 $q_h^*$ $\approx 0.5$

[1] P. Cizek (2010)。重新加权最小修剪平方：一步估计器的替代方案。
[2] M. Hubert、PJ Rousseeuw 和 S. Van Aelst (2008)。高分解稳健多变量方法。
[3] C. Becker 和 U. Gather (1999)。多元异常值识别规则的掩蔽分解点。

其它你可能感兴趣的问题

上一篇混合模型中的参数数量下一篇在皮尔逊的第二个偏度系数中乘以 3 的目的是什么？