什么是具有类似于 Theil-Sen 估计器属性的参数模型?

机器算法验证 回归 估计 强大的
2022-04-10 07:59:59

Theil-Sen 估计器是一个非常漂亮的算法,它产生的回归线对响应变量和预测变量中的异常值相对不敏感

我一直想知道非参数 Theil-Sen 估计器的参数“模拟”是什么。或者,如果没有严格的类比,那么具有类似于 Theil-Sen 估计量的参数模型的一个很好的例子是什么?

对于参数类比,我的意思与拉普拉斯分布的含义相同,是“给你”中位数的模型。我的预感是二元拉普拉斯分布将具有类似于 Theil-Sen 估计量的属性,但这只是预感......

编辑:

正如 Wilcox (2010) 所提到的,具有对异常值不敏感的误差分布的线性回归似乎不会具有与 Theil-Sen 估计器相似的特性。虽然 Theil-Sen 和例如LAD对 Y 轴上的异常值相对稳健,但 LAD 对 X 轴上的异常值敏感,而 Theil-Sen 则不敏感。有关这方面的示例,请参见下面 Wilcox (2010) 的图:

在此处输入图像描述

参考

威尔科克斯,RR (2010)。现代统计方法的基础知识:大幅提高功效和准确性。施普林格。

2个回答

我相信,S 估计器[1](以及它的算法,FastS[2])是最接近 Theil-Sen 估计器的参数。

这是因为 S 估计器显式地添加了关于残差分布的参数假设(通过调整常数),以便在未污染的样本中获得更好的效率。c

FastS算法在通过CRAN分发的robustbase R包[3]中实现。

两种方法之间存在一些差异:

  1. FastS 比 Theil-Sen 对异常值更稳健(后者的击穿点为 0.29,前者为 0.5)
  2. FastS 可以有效地计算中等大小的数据集,包括当有多个回归量时。Theil-Sen 仅用于单变量回归。

这两个差异解释了为什么 Theil Sen 估计器基本上被弃用了。

  1. Rousseeuw, PJ 和 Yohai, VJ (1984)。通过 S 估计器进行稳健回归,在稳健和非线性时间序列中,J. Franke、W. Hardle 和 RD Martin (eds.)。统计讲座笔记 26, 256--272, Springer Verlag, New York。
  2. Salibian-Barrera, M. Yohai, VJ (2006)。S-回归估计的快速算法。计算和图形统计杂志,卷。15, 414--427。
  3. Rousseeuw P.、Croux C.、Todorov V.、Ruckstuhl A.、Salibian-Barrera M.、Verbeke T.、Koller M.、Maechler M. (2012)。稳健基础:基本稳健统计。R 包版本 0.9--5。

一种可能性是使用灵活的误差分布。这是,你有一个模型

yj=xjβ+ϵj,

其中是一个灵活的分布。因此,例如,为了生成对异常值和偏度的存在(相对)稳健的模型,的一个可能选择是偏斜分布(有几种类型)。ϵjFFF