大数据空间中协方差矩阵的稳健估计

机器算法验证 估计 协方差 矩阵 强大的 大数据
2022-04-10 11:29:25

我正在尝试计算大数据空间中协方差矩阵(以及均值)的稳健估计。我知道 FastMVE 和 FastMCD(最小协方差行列式和最小体积椭球)算法,但我不知道 Apache Spark/其他地方是否已经有任何实现。你会帮忙吗?

谢谢并恭祝安康,

1个回答

首先,重要的是要指出,您很可能会使用 FastMCD[0] 或 FastMVE[1,p199]算法,它们是实际 MCD 和 MVE估计器的随机近似值。这些近似值的质量(特别是对异常值的实际鲁棒性)以及为获得它们而需要部署的计算工作主要取决于一个参数,该参数决定了两种算法使用的随机开始数。

通常,在大多数植入中,此数字默认设置为 500,但用户可以更改。为了保证算法的最大鲁棒性,它应该增长为O(2p)(具体公式见[2]),其中p是数据集中的变量数。因此,使用规定数量的子集的值p超过 30 是不切实际的,人们必须接受由此产生的鲁棒性损失(鲁棒性损失可以使用 [2] 中的公式计算)。

另一方面,对于固定p,获得 FastMCD 和 FastMVE 的计算成本符合亚线性增长n(观察的数量)这要归功于一种称为随机子采样的技巧(参见 [0],第 3.3 节的解释)。因此,获得 FastMCD/FastMVE 拟合的计算成本基本上由下式确定p(通过随机开始的次数)。现在,尽管原则上非常相似,但 FastMVE 算法比 FastMCD 稍微简单一些,并且在计算相同数量的起始子集时需要大约四分之一的时间n很大。

--确切的MCD和MVE不是随机的,而是需要的顺序(np+1)起点,除非两者都np很小,没有太多实际用途(尽管,大多数实现都允许您要求它们,请参阅链接的答案以获取有关如何在 中执行此操作的示例rrcov

c您将在 R 包中找到 FastMCD 和 FastMVE 的良好开源实现rrcov其他较旧的 FastMCD 实现存在于 Matlab 库Libra中。

现在,对于与您的变量数量相当的问题,您可能需要查看 OGK。OGK 是一个鲁棒的散射估计器,它避开了 FastMCD 和 FastMVE 的一个关键(并且计算量大!)属性:仿射等方差。作为回报,OGK 拟合的计算成本要低得多(一到两个数量级之间,具体取决于pn) 并且它是确定性的。OGK的开源c实现也包含在Rrrcov中。参见 [2] 对所有这些方法以及其中一些方法的经验比较。

我还要注意,如果您愿意使用排名k,k<p已知值的协方差矩阵的近似值k,一个可能吸引人的替代方法是使用稳健的 PCA 方法。

  • [0] PJ Rousseeuw 和 K. van Driessen (1999) 最小协方差行列式估计器的快速算法。技术计量学 41, 212–223。
  • [1] RA Maronna、D. Martin 和 V. Yohai(2006 年)。稳健统计:理论与方法。威利,纽约。
  • [2] Hubert, M., Rousseeuw, PJ, Vakili, K. (2014)。稳健协方差估计量的形状偏差:一项实证研究。统计论文,55, 15-28。
  • [3] Maronna, RA 和 Zamar, RH (2002) 高维数据集位置和分散的稳健估计;技术计量学 44(4),307--317。