在使用数据解决业务问题时,通常至少有一个支持经典统计数据的关键假设是无效的。大多数时候,没有人会费心去检查这些假设,所以你永远不会知道。
例如,这么多常见的 Web 指标是“长尾的”(相对于正态分布),到目前为止,已经有据可查,我们认为这是理所当然的。另一个例子是在线社区——即使在拥有数千名成员的社区中,也有据可查的是,迄今为止,在许多这些社区中贡献/参与的最大份额归因于极少数的“超级贡献者”。(例如,几个月前,就在 SO API 推出 beta 版之后,StackOverflow的一位成员发表了一份对他通过 API 收集的数据的简要分析;他的结论——不到 1% 的 SO 成员占了大部分SO上的活动(大概是提问,回答),另外1-2%的人占其余的,绝大多数成员什么都不做)。
那种分布——更常见的是规则而不是例外——通常最好用幂律密度函数建模。对于这些类型的分布,即使应用中心极限定理也是有问题的。
因此,鉴于分析人员对此类人群感兴趣,并且鉴于经典模型在这些数据上的表现明显不佳,并且鉴于稳健和抗拒的方法已经存在了一段时间(我相信至少 20 年)——为什么他们不是更经常使用吗?(我也想知道为什么我不经常使用它们,但这对于CrossValidated 来说并不是一个真正的问题。)
是的,我知道有教科书章节完全致力于稳健统计,我知道有(一些)R 包(robustbase是我熟悉和使用的包)等等。
然而,鉴于这些技术的明显优势,它们通常显然是更好的工作工具——为什么不经常使用它们?与经典的类似物相比,我们难道不应该期望看到更频繁(甚至可能是假定地)使用的稳健(和抗拒)统计数据吗?
我听到的唯一实质性(即技术性)解释是稳健的技术(同样适用于抗性方法)缺乏经典技术的力量/敏感性。我不知道这在某些情况下是否确实如此,但我知道在很多情况下这不是真的。
先发制人的最后一句话:是的,我知道这个问题没有一个明显正确的答案;本网站上的问题很少。而且,这个问题是一个真正的询问;这不是提出观点的借口——我在这里没有观点,只是一个问题,我希望得到一些有见地的答案。