机器算法验证 - 大数据空间中协方差矩阵的稳健估计 - 吾爱随笔录

大数据空间中协方差矩阵的稳健估计

机器算法验证估计协方差矩阵强大的大数据

2022-04-10 11:29:25

我正在尝试计算大数据空间中协方差矩阵（以及均值）的稳健估计。我知道 FastMVE 和 FastMCD（最小协方差行列式和最小体积椭球）算法，但我不知道 Apache Spark/其他地方是否已经有任何实现。你会帮忙吗？

谢谢并恭祝安康，

1个回答

首先，重要的是要指出，您很可能会使用 FastMCD[0] 或 FastMVE[1,p199]算法，它们是实际 MCD 和 MVE估计器的随机近似值。这些近似值的质量（特别是对异常值的实际鲁棒性）以及为获得它们而需要部署的计算工作主要取决于一个参数，该参数决定了两种算法使用的随机开始数。

通常，在大多数植入中，此数字默认设置为 500，但用户可以更改。为了保证算法的最大鲁棒性，它应该增长为 $O(2^p)$ （具体公式见[2]），其中 $p$ 是数据集中的变量数。因此，使用规定数量的子集的值 $p$ 超过 30 是不切实际的，人们必须接受由此产生的鲁棒性损失（鲁棒性损失可以使用 [2] 中的公式计算）。

另一方面，对于固定 $p$ ，获得 FastMCD 和 FastMVE 的计算成本符合亚线性增长 $n$ （观察的数量）这要归功于一种称为随机子采样的技巧（参见 [0]，第 3.3 节的解释）。因此，获得 FastMCD/FastMVE 拟合的计算成本基本上由下式确定 $p$ （通过随机开始的次数）。现在，尽管原则上非常相似，但 FastMVE 算法比 FastMCD 稍微简单一些，并且在计算相同数量的起始子集时需要大约四分之一的时间 $n$ 很大。

--确切的MCD和MVE不是随机的，而是需要的顺序 ${n\choose p+1}$ 起点，除非两者都 $n$ 和 $p$ 很小，没有太多实际用途（尽管，大多数实现都允许您要求它们，请参阅链接的答案以获取有关如何在中执行此操作的示例）rrcov。

c您将在 R 包中找到 FastMCD 和 FastMVE 的良好开源实现rrcov。其他较旧的 FastMCD 实现存在于 Matlab 库Libra中。

现在，对于与您的变量数量相当的问题，您可能需要查看 OGK。OGK 是一个鲁棒的散射估计器，它避开了 FastMCD 和 FastMVE 的一个关键（并且计算量大！）属性：仿射等方差。作为回报，OGK 拟合的计算成本要低得多（一到两个数量级之间，具体取决于 $p$ 和 $n$ ) 并且它是确定性的。OGK的开源c实现也包含在R包rrcov中。参见 [2] 对所有这些方法以及其中一些方法的经验比较。

我还要注意，如果您愿意使用排名 $k,k<p$ 已知值的协方差矩阵的近似值 $k$ ，一个可能吸引人的替代方法是使用稳健的 PCA 方法。

[0] PJ Rousseeuw 和 K. van Driessen (1999) 最小协方差行列式估计器的快速算法。技术计量学 41, 212–223。
[1] RA Maronna、D. Martin 和 V. Yohai（2006 年）。稳健统计：理论与方法。威利，纽约。
[2] Hubert, M., Rousseeuw, PJ, Vakili, K. (2014)。稳健协方差估计量的形状偏差：一项实证研究。统计论文，55, 15-28。
[3] Maronna, RA 和 Zamar, RH (2002) 高维数据集位置和分散的稳健估计；技术计量学 44（4），307--317。

其它你可能感兴趣的问题

上一篇多重回归还是单独的简单回归？下一篇几个泊松过程的和是泊松过程吗？