协方差矩阵的逆对数据有什么影响?(直觉地)

机器算法验证 贝叶斯 最大似然 协方差 矩阵
2022-02-11 04:07:55

我很好奇它的性质Σ1. 任何人都可以直观地告诉一些关于“什么是Σ1说数据?”

编辑:

感谢您的回复

在学习了一些很棒的课程之后,我想补充几点:

  1. 它是信息的度量,即xTΣ1x是沿方向的信息量x.
  2. 对偶性:因为Σ是正定的,所以是Σ1,所以它们是点积范数,更准确地说它们是彼此的对偶范数,所以我们可以推导出正则化最小二乘问题的 Fenchel 对偶,并对对偶问题进行最大化。我们可以选择其中任何一个,这取决于他们的条件。
  3. 希尔伯特空间:列(和行)Σ1Σ跨越同一个空间。因此,在表示与Σ1或者Σ
  4. 贝叶斯统计:范数Σ1在贝叶斯统计中占有重要地位。即它决定了我们在先验中有多少信息,例如,当先验密度的协方差像Σ10 我们没有提供信息(或者可能是 Jeffreys 之前的)
  5. 频率统计:它与 Fisher 信息密切相关,使用 Cramer-Rao 界。实际上,fisher 信息矩阵(对数似然梯度与其自身的外积)是 Cramer-Rao 约束的,即Σ1F(wrt 正半定锥,iewrt 浓度椭球)。所以当Σ1=F最大似然估计是有效的,即数据中存在最大信息,因此频率主义制度是最优的。简而言之,对于一些似然函数(请注意,似然的函数形式完全取决于假设生成数据的概率模型,即生成模型),最大似然是有效且一致的估计器,就像老板一样规则。(很抱歉过度杀伤它)
2个回答

它是一种精确度的度量,就像Σ是分散度的量度。

更详细地说,Σ是衡量变量如何围绕均值(对角线元素)分散以及它们如何与其他变量(非对角线)元素共同变化的量度。离散度越大,它们与平均值的距离越远,它们与其他变量的共同变化(绝对值)越大,它们“一起移动”的趋势就越强(取决于相同或相反的方向,具体取决于协方差的符号)。

相似地, Σ1是衡量变量在均值(对角线元素)周围的紧密程度以及它们与其他变量(非对角线元素)不共同变化的程度的度量。因此,对角线元素越高,变量围绕均值聚集的越紧密。非对角线元素的解释更加微妙,我建议您参考其他答案以获得该解释。

使用上标来表示逆元素,1/σii是变量分量的方差ip1其他变量,以及σij/σiiσjj是变量的偏相关ij,控制为p2其他变量。