协方差和相关矩阵和/或其逆矩阵的行列式是否有有用的解释?

机器算法验证 自习 协方差 协方差矩阵 相关矩阵 行列式
2022-03-20 20:51:09

几年前在 VB 和 T-SQL 中学习计算协方差和相关矩阵及其逆矩阵时,我了解到各种条目具有有趣的属性,可以使它们在正确的数据挖掘场景中有用。一个明显的例子是协方差矩阵的对角线上存在方差。一些我还没有使用但可能在某些时候派上用场的不太明显的例子是逆相关矩阵中的方差膨胀因子和逆协方差矩阵中的偏相关。

然而,我尚未在文献中直接看到的一件事是如何解释这些矩阵的行列式。由于经常为其他类型的矩阵计算行列式,我希望能找到关于它们的大量信息,但在 StackExchange 论坛和 Internet 其他地方的随意搜索中,我发现的很少。我遇到的大多数提及都围绕着在计算其他统计测试和算法的过程中使用行列式作为一个步骤,例如主成分分析 (PCA) 和 Hotelling 的测试之一;没有人直接解决如何自行解释这些决定因素。数据挖掘文献中没有经常讨论它们是否有实际原因?更重要的是,它们是否以独立的方式提供任何有用的信息,如果是,我如何解释每个的决定因素?我意识到行列式是一种由线性变换引起的有符号体积,所以我怀疑这些特定行列式的行列式可能表示整个集合上协方差或相关性等的某种体积度量,或者类似的东西(与普通的协方差和相关性相反,它们位于两个属性或变量之间)。这也引出了他们的倒数代表什么样的体积的问题。我对该主题或涉及的大量矩阵数学不够熟悉,无法进一步推测,但我能够编写所有四种类型的矩阵及其行列式。我的问题并不紧迫,但从长远来看,我将不得不决定是否值得在我的探索性数据挖掘过程中定期包含这些矩阵及其决定因素。在这些特定语言中以一对一的双变量方式计算协方差和相关性会更便宜,但如果我能得出一些更深入的见解来证明费用合理,我会加倍努力并实施行列式计算编程资源。提前致谢。如果我能获得一些更深入的见解来证明编程资源方面的费用是合理的,我会加倍努力并实施行列式计算。提前致谢。如果我能获得一些更深入的见解来证明编程资源方面的费用是合理的,我会加倍努力并实施行列式计算。提前致谢。

1个回答

我能够从杂乱无章的来源中拼凑出这些矩阵的一些一般原则、用例和属性;他们中很少有直接涉及这些主题,大多数只是顺便提及。由于行列式代表有符号的体积,我预计与这四种类型的矩阵有关的那些将转化为某种多维关联度量;这在某种程度上证明是正确的,但其中一些表现出有趣的特性:

协方差矩阵:

• 在高斯分布的情况下,行列式间接测量微分熵,这可以解释为数据点在矩阵体积上的分散。请参阅 tmp 在什么是协方差矩阵的行列式给出的答案?详情。

• Alexander Vigodner 在同一线程中的回答说它还具有积极性。

• 协方差矩阵行列式可以解释为广义方差。请参阅 NIST 统计手册第6.5.3.2 页。行列式和特征结构

逆协方差矩阵:

• 相当于协方差矩阵行列式所代表的广义方差的逆;最大化逆协方差矩阵的行列式显然可以代替计算Fisher信息矩阵的行列式,可用于优化实验设计。请参阅 kjetil b halvorsen 对 CV 线程Determinant of Fisher Information的回答

相关矩阵:

• 这些比协方差矩阵行列式更有趣,因为相关量随着行列式接近 1 而减小,随着后者接近 0 而增加。这与普通相关系数相反,其中较高的数字表示较大的正相关。“仅当所有相关性都等于 0 时,相关矩阵的行列式才等于 1.0,否则行列式将小于 1。请记住,行列式与由标准分数表示的数据点群所占据的空间量有关" 这套杜兰课程笔记这个 Quora 页面

• 对这种意外行为的另一个引用:“当某些变量彼此完全相关或高度相关时,相关矩阵的行列式变为零或接近零。” 请参阅Rakesh Pandey 的问题如何使用 SPSS 处理计算可靠性中接近零行列式的问题?

• 第三个参考:“具有非常小的 det(R) 仅意味着您有一些几乎线性相关的变量。” Carlos Massera Filho 在这个 CrossValidated 线程中的回答。

• 行列式也遵循从 0 到 1 的等级,这与相关系数遵循的 -1 到 1 等级不同。它们也缺乏普通行列式在表达体积方向时可能表现出的符号。我发现的任何文献中都没有提到相关决定因素是否仍然代表某种方向性的概念。

逆相关矩阵:

• 谷歌搜索“逆相关矩阵”和“行列式”这两个词的组合结果只有 50 个命中,因此显然它们不常用于统计推理。

• 显然,在某些情况下,最小化逆相关行列式可能是有用的,因为使用自适应滤波器的回声消除专利包含一个正则化过程,旨在做到这一点。见第 5 在本专利文件中。

• 第。Telman Aliev 的 Robust Technology with Analysis of Interference in Signal Processing(可在 Google 图书预览中获得)的 5 似乎暗示相关矩阵的“不良规定”与逆相关矩阵行列式的不稳定性有关。换句话说,其行列式的剧烈变化与其组成元素的微小变化成比例,与相关矩阵捕获的信息量有关。

这些决定因素可能还有其他属性和用例未在此处列出;为了完整起见,我将发布这些内容并为我提出的问题提供答案,以防其他人遇到这些解释的实际用途(就像我对相关决定因素所做的那样)。