机器算法验证 - 样本协方差矩阵不可逆时怎么办？ - 吾爱随笔录

机器算法验证聚类多元分析协方差协方差矩阵逆矩阵

2022-02-25 19:29:15

我正在研究一些聚类技术，对于给定的 d 维向量集群，我假设多元正态分布并计算样本 d 维平均向量和样本协方差矩阵。

然后，当试图确定一个新的、看不见的 d 维向量是否属于这个集群时，我正在通过这个度量检查它的距离：

{(X_{i} - {\hat{μ}}_{X})}^{'} {\hat{σ}}_{X}^{- 1} (X_{i} - {\hat{μ}}_{X}) > B_{0.95} (\frac{p}{2}, \frac{- p}{2})

$\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right)$

这需要我计算协方差矩阵的逆 $\hat{\sigma}_X$ . 但是给定一些样本，我不能保证协方差矩阵是可逆的，如果不是，我该怎么办？

谢谢

2个回答

如果您的样本维度小于向量空间维度，则可能会出现奇异矩阵。如果您的样本少于 $d+1$ （什么时候 $d$ 是你的维度），这种情况甚至必然会出现： $k+1$ 样本最多跨越一个 $d$ 维超平面。给定这么小的样本，您显然无法计算正交空间中的方差。

这就是为什么通常不使用文字 PCA，而是执行奇异值分解，这可用于计算矩阵的伪逆。如果矩阵是可逆的，则伪逆将是逆矩阵。

但是，如果您看到不可逆矩阵，那么如果向量在集群所代表的超平面之外，那么您与集群的距离将毫无意义，因为您不知道正交空间中的方差（您可以想到这个方差为 0！）SVD 可以计算伪逆，但“方差”仍然不会由您的数据确定。

在这种情况下，您可能应该首先进行全局降维。仅当您实际上具有非冗余维度时，增加样本量才会有所帮助：无论您从分布中抽取多少样本 $y=x$ ，矩阵永远是不可逆的，你将无法判断偏差 $x-y$ 关于标准偏差（0）。

此外，根据您计算协方差矩阵的方式，您可能会因灾难性取消而遇到数值问题。最简单的解决方法是始终首先将数据居中，以获得零均值。

我在尝试gaussian_kde在 Python 中使用 KDE 时遇到了这个问题，其中随机变量是某些图像的 784 像素。在我的情况下，原因是许多像素（在所有图像中）总是为零，所以根本不是随机的。为了解决这个问题，我只是在图像中添加了一些小的高斯噪声，瞧，现在协方差矩阵是可逆的。

其它你可能感兴趣的问题