为什么 RANSAC 在统计中没有得到最广泛的应用?

机器算法验证 异常值 引导程序 强大的
2022-02-12 22:09:00

来自计算机视觉领域,我经常使用RANSAC(随机样本共识)方法将模型拟合到具有大量异常值的数据。

但是,我从未见过统计学家使用它,而且我一直认为它不被认为是一种“统计合理”的方法。为什么呢?它本质上是随机的,这使得分析变得更加困难,但自举方法也是如此。

或者仅仅是学术孤岛不互相交谈的情况?

4个回答

我认为这里的关键是丢弃了 RANSAC 中的大部分数据。

在大多数统计应用中,某些分布可能有重尾,因此小样本数可能会扭曲统计估计。稳健的估计器通过对数据进行不同的加权来解决这个问题。另一方面,RANSAC 没有尝试容纳异常值,它是为数据点真正不属于的情况而构建的,而不仅仅是非正态分布。

对我们来说,这只是稳健回归的一个例子——我相信它也被统计学家使用,但可能没有那么广泛,因为它有一些更知名的替代方案。

这听起来很像Bagging,这是一种常用的技术。

您使用 RANSAC 丢弃数据,可能没有证明其合理性,而是基于增加模型的拟合度。通常避免丢弃数据以提高拟合度,因为您可能会丢失重要数据。在没有正当理由的情况下去除异常值总是有问题的。

当然可以证明它是合理的。例如,如果您知道数据应该遵循给定的模式,但由于测量错误,数据也与模式存在偏差。