我正在使用通常的峰度估计器,但我注意到我的经验分布中即使是小的“异常值” ,即远离中心的小峰,对其影响很大。是否有更稳健的峰度估计量?
峰度的稳健估计?
机器算法验证
异常值
强大的
时刻
峰度
2022-03-24 07:37:04
1个回答
有几种。您将在 此链接中找到与该论文的非封闭版本的详尽比较(此答案底部的正确参考)。
由于问题的限制,这些算法中最稳健的算法(L/RMC)的故障率最多为 12.5%。L/RMC 的一个优点是它基于分位数并且即使在基础分布没有矩时仍然可以解释。另一个优点是它不假设数据中未污染部分的分布对称来测量尾重:实际上,该算法返回两个数字:右尾重的 RMC 和左尾重的 LMC。
估计器的稳健性可以通过其崩溃点来衡量。然而,在这种情况下,击穿点的概念是一个复杂的概念。直观地说,这意味着攻击者需要控制至少 12.5% 的样本才能使该估计器取任意值(即理解为估计器可以返回的值范围内的任意值,因为测量通过构造,尾部重量始终在中:例如,任何污染都不会导致算法返回 -1!)。在实践中,人们发现可以用甚至非常病态的异常值替换大约 5% 的样本,而不会导致受影响最大的估计值(总是有两个)与未污染样本的值偏离太多。
L/RMC 也被广泛实施。例如,您可以 在此处找到 R 实现。如上面链接的文章中所述,要计算 L/RMC,您需要分别在数据的左半边和右半边计算 MC(链接中实现的估计器)。在这里,(左)右半部分是由大于原始样本中位数的观察(更小)形成的子样本。
- 布赖斯、休伯特、斯特鲁伊夫。(2006 年)。尾重的可靠测量。
其它你可能感兴趣的问题