多维散布或方差的度量

机器算法验证 方差 多元分析 协方差矩阵
2022-04-06 11:55:36

什么是多维空间中传播的好衡量标准?

在单维空间中,方差是我需要的度量,但在多维空间中,我需要的不仅仅是方差。请注意,在单个维度中,我需要与数据点覆盖的范围不同的东西。

考虑一个表示所有可能数据点空间的超立方体(所有属性都限于区间内的值(0,1))。当立方体的所有角均等填充(并且立方体内没有其他数据点)时,我需要一种最佳的传播度量。当只填充两个相对的角时,所有方差都将是最大的,但这不是我需要的。此外,覆盖所有角落但也包含更多朝向立方体中间的点的总体应该具有较低的分布。

我的第一个预感是将协方差矩阵的主对角线上的所有值相加,并减去所有其他值(所有适当的协方差)。然而,这个想法是非常临时的,我不知道这是否朝着正确的方向思考。

请帮助我在多维空间中找到一个很好的传播/方差度量。

1个回答

这取决于您要测量的确切内容,但这里有两个建议。

Σ表示协方差矩阵,并注意Σ等于特征值之和,而行列式等于它们的乘积。这意味着

Tr(Σ)=λ一世
会给你“总方差”,而
|Σ|=λ一世
将为您提供边长由特征值的平方根(即每个正交方向的标准偏差)确定的超矩形的体积。因此,如果您正在寻找分布所覆盖的体积的度量,那么您应该使用|Σ|.

请注意,这也给出了以下事实背后的一些直觉:|Σ|出现在多元正态分布的密度函数的分母中:

1(2π)ķ|Σ|e-12(X-μ)Σ-1(X-μ)