为什么稳健(和抗拒)统计没有取代经典技术?

机器算法验证 模型选择 非参数 异常值 强大的 哲学的
2022-01-15 23:05:02

在使用数据解决业务问题时,通常至少有一个支持经典统计数据的关键假设是无效的。大多数时候,没有人会费心去检查这些假设,所以你永远不会知道。

例如,这么多常见的 Web 指标是“长尾的”(相对于正态分布),到目前为止,已经有据可查,我们认为这是理所当然的。另一个例子是在线社区——即使在拥有数千名成员的社区中,也有据可查的是,迄今为止,在许多这些社区中贡献/参与的最大份额归因于极少数的“超级贡献者”。(例如,几个月前,就在 SO API 推出 beta 版之后,StackOverflow的一位成员发表了一份对他通过 API 收集的数据的简要分析;他的结论——不到 1% 的 SO 成员占了大部分SO上的活动(大概是提问,回答),另外1-2%的人占其余的,绝大多数成员什么都不做)。

那种分布——更常见的是规则而不是例外——通常最好用幂律密度函数建模。对于这些类型的分布,即使应用中心极限定理也是有问题的。

因此,鉴于分析人员对此类人群感兴趣,并且鉴于经典模型在这些数据上的表现明显不佳,并且鉴于稳健和抗拒的方法已经存在了一段时间(我相信至少 20 年)——为什么他们不是更经常使用吗?(我也想知道为什么不经常使用它们,但这对于CrossValidated 来说并不是一个真正的问题。)

是的,我知道有教科书章节完全致力于稳健统计,我知道有(一些)R 包(robustbase是我熟悉和使用的包)等等。

然而,鉴于这些技术的明显优势,它们通常显然是更好的工作工具——为什么不经常使用它们与经典的类似物相比,我们难道不应该期望看到更频繁(甚至可能是假定地)使用的稳健(和抗拒)统计数据吗?

我听到的唯一实质性(即技术性)解释是稳健的技术(同样适用于抗性方法)缺乏经典技术的力量/敏感性。我不知道这在某些情况下是否确实如此,但我知道在很多情况下这不是真的。

先发制人的最后一句话:是的,我知道这个问题没有一个明显正确的答案;本网站上的问题很少。而且,这个问题是一个真正的询问;这不是提出观点的借口——我在这里没有观点,只是一个问题,我希望得到一些有见地的答案。

4个回答

研究人员想要较小的 p 值,如果您使用做出更强分布假设的方法,您可以获得更小的 p 值。换句话说,非鲁棒的方法可以让你发表更多的论文。当然,这些论文中的更多可能是误报,但出版物就是出版物。这是一个愤世嫉俗的解释,但它有时是有效的。

因此,“经典模型”(无论它们是什么——我假设您的意思是诸如教科书上教授并由 ML 估计的简单模型)在某些(可能是许多)现实世界数据集上失败了。

如果模型失败,则有两种基本方法可以修复它:

  1. 做更少的假设(更少的模型)
  2. 做出更多假设(更多模型)

稳健统计、准似然和 GEE 方法采用第一种方法,将估计策略更改为模型不适用于所有数据点(稳健)或不需要表征数据的所有方面(QL 和 GEE)。

另一种方法是尝试建立一个模型,该模型明确地模拟污染数据点的来源,或者原始模型中看似错误的方面,同时保持估计方法与以前相同。

有些人直觉上更喜欢前者(它在经济学中特别流行),有些人直觉上更喜欢后者(它在贝叶斯主义者中特别受欢迎,他们往往更喜欢更复杂的模型,特别是一旦他们意识到他们将使用模拟工具无论如何推断)。

肥尾分布假设,例如使用负二项式而不是泊松或 t 而不是正态分布,属于第二种策略。大多数标有“稳健统计”的东西都属于第一种策略。

实际上,为实际复杂问题的第一个策略推导估计量似乎相当困难。这并不是不这样做的原因,但这也许是为什么不经常这样做的一个解释。

我建议这是教学滞后。大多数人要么在大学要么在大学学习统计学。如果统计学不是您的第一个学位,而是获得了数学或计算机科学学位,那么您可能只涵盖基本的统计学模块:

  1. 可能性
  2. 假设检验
  3. 回归

这意味着当你遇到问题时,你会尝试使用你所知道的来解决问题。

  • 数据不正常 - 记录日志。
  • 数据有烦人的异常值 - 删除它们。

除非你偶然发现别的东西,否则很难做得更好。如果你不知道它叫什么,用谷歌搜索真的很难!

我认为所有技术都需要一段时间才能过滤掉较新的技术。标准假设检验成为标准统计学课程的一部分需要多长时间?

顺便说一句,拥有统计学学位的教学仍然会有滞后——只是一个更短的!

任何接受过合理水平统计数据分析培训的人都会定期使用稳健统计的概念。大多数研究人员有足够的知识来寻找严重的异常值和数据记录错误。删除可疑数据点的政策可以追溯到 19 世纪,瑞利勋爵、GG Stokes 和其他同龄人。如果问题是:

为什么研究人员不使用更现代的方法来计算位置、规模、回归等估计?

那么上面给出了答案——这些方法主要是在过去的 25 年中发展起来的,比如 1985 年到 2010 年。学习新方法的滞后因素,以及由“神话”所造成的惯性因素,没有任何问题盲目地使用经典方法。John Tukey 评论说,你使用哪种健壮/耐用的方法并不重要——重要的是你使用了一些。常规使用经典方法和鲁棒/抗性方法是完全正确的,只有在它们差异足够重要时才担心。但是当它们不同时,你应该好好想想

相反,问题是:

为什么研究人员不停下来就他们的数据提出问题,而不是盲目地应用高度不稳定的估计?

那么答案真的归结为培训。有太多的研究人员从未接受过适当的统计培训,总结起来就是普遍依赖 p 值作为“统计意义”的全部和全部。

@Kwak:从 1970 年代开始,Huber 的估计稳健的,在这个词的经典意义上:他们抵制异常值。再降估计实际上早于 1980 年代:普林斯顿稳健性研究(1971 年)包括对位置的双平方估计,这是一种再降估计。