几年前在 VB 和 T-SQL 中学习计算协方差和相关矩阵及其逆矩阵时,我了解到各种条目具有有趣的属性,可以使它们在正确的数据挖掘场景中有用。一个明显的例子是协方差矩阵的对角线上存在方差。一些我还没有使用但可能在某些时候派上用场的不太明显的例子是逆相关矩阵中的方差膨胀因子和逆协方差矩阵中的偏相关。
然而,我尚未在文献中直接看到的一件事是如何解释这些矩阵的行列式。由于经常为其他类型的矩阵计算行列式,我希望能找到关于它们的大量信息,但在 StackExchange 论坛和 Internet 其他地方的随意搜索中,我发现的很少。我遇到的大多数提及都围绕着在计算其他统计测试和算法的过程中使用行列式作为一个步骤,例如主成分分析 (PCA) 和 Hotelling 的测试之一;没有人直接解决如何自行解释这些决定因素。数据挖掘文献中没有经常讨论它们是否有实际原因?更重要的是,它们是否以独立的方式提供任何有用的信息,如果是,我如何解释每个的决定因素?我意识到行列式是一种由线性变换引起的有符号体积,所以我怀疑这些特定行列式的行列式可能表示整个集合上协方差或相关性等的某种体积度量,或者类似的东西(与普通的协方差和相关性相反,它们位于两个属性或变量之间)。这也引出了他们的倒数代表什么样的体积的问题。我对该主题或涉及的大量矩阵数学不够熟悉,无法进一步推测,但我能够编写所有四种类型的矩阵及其行列式。我的问题并不紧迫,但从长远来看,我将不得不决定是否值得在我的探索性数据挖掘过程中定期包含这些矩阵及其决定因素。在这些特定语言中以一对一的双变量方式计算协方差和相关性会更便宜,但如果我能得出一些更深入的见解来证明费用合理,我会加倍努力并实施行列式计算编程资源。提前致谢。如果我能获得一些更深入的见解来证明编程资源方面的费用是合理的,我会加倍努力并实施行列式计算。提前致谢。如果我能获得一些更深入的见解来证明编程资源方面的费用是合理的,我会加倍努力并实施行列式计算。提前致谢。