马氏距离的自下而上解释?

机器算法验证 正态分布 数理统计 距离 模式识别 直觉
2022-01-25 12:34:29

我正在研究模式识别和统计学,几乎我打开的每一本关于这个主题的书都碰到了马氏距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正理解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,可以测量某种距离”:)

定义通常还包含特征向量和特征值,我很难将它们连接到马氏距离。我了解特征向量和特征值的定义,但它们与马氏距离有何关系?它是否与更改线性代数等中的基础有关?

我还阅读了有关该主题的这些以前的问题:

我也读过这个解释

答案很好,图片也很好,但我仍然不明白......我有一个想法,但它仍然在黑暗中。有人可以给出“你将如何向你的祖母解释它”的解释,以便我最终可以结束这个,并且再也不会想知道马氏距离到底是什么?:) 它来自哪里,是什么,为什么?

更新:

以下是有助于理解马氏公式的内容:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

4个回答

这是一些多元数据(二维)的散点图:

在此处输入图像描述

当轴被排除在外时,我们能做些什么呢?

在此处输入图像描述

引入数据本身建议的坐标。

原点位于点的质心(它们的平均值的点)。一个坐标轴(下图中的蓝色)将沿着点的“脊柱”延伸,(根据定义)是方差最大的任何方向。第二个坐标轴(图中红色)将垂直于第一个坐标轴延伸。(在多于二维的情况下,会选择方差尽可能大的那个垂直方向,以此类推。)

在此处输入图像描述

我们需要一个规模沿每个轴的标准偏差将很好地建立沿轴的单位。记住 68-95-99.7 规则:大约三分之二 (68%) 的点应该在原点的一个单位内(沿轴);大约 95% 应该在两个单位之内。这样可以很容易地看到正确的单位。作为参考,该图包括这些单位中的单位圆:

在此处输入图像描述

这看起来不像是一个圆圈,是吗?那是因为这张图片被扭曲了(正如两个轴上数字之间的不同间距所证明的那样)。让我们用正确的方向(从左到右,从下到上)重新绘制它,并使用单位纵横比,以便水平的一个单位确实等于垂直的一个单位:

在此处输入图像描述

您在这张图片中而不是在原始图片中测量马氏距离。

这里发生了什么? 我们让数据告诉我们如何构建一个坐标系以在散点图中进行测量。 就是这样。尽管沿途我们有一些选择(我们总是可以反转一个或两个轴;并且在极少数情况下,沿着“脊柱”的方向 -主要方向- 不是唯一的),它们不会改变距离在最后的情节中。


技术评论

(不是为了奶奶,一旦数字再次出现在情节上,她可能就开始失去兴趣,而是为了解决剩下的问题。)

  • 沿新轴的单位向量是特征向量(协方差矩阵或其逆矩阵)。

  • 我们注意到,不扭曲椭圆以形成一个圆沿每个特征向量的距离除以标准偏差:协方差的平方根。代表协方差函数,两点之间的新 (Mahalanobis) 距离是从的距离除以的平方根。相应的代数运算,现在将视为矩阵的表示,将视为向量的表示,写作这有效CxyxyC(xy,xy)Cxy(xy)C1(xy)不管用什么基来表示向量和矩阵。 特别是,这是原始坐标中马氏距离的正确公式。

  • 在最后一步中扩展轴的量是逆协方差矩阵的特征值(的平方根)。等效地,轴被协方差矩阵的特征值(的根)缩小。因此,分散越多,将椭圆转换为圆形所需的收缩就越多。

  • 尽管此过程始终适用于任何数据集,但对于近似多元正态的数据,它看起来很不错(经典的足球形状的云)。在其他情况下,平均点可能无法很好地表示数据中心,或者无法使用方差作为散布度量来准确识别“脊椎”(数据中的一般趋势)。

  • 坐标原点的移动、轴的旋转和扩展共同形成了仿射变换。 除了最初的偏移,这是从原始的基础(使用指向正坐标方向的单位向量)到新的基础(使用单位特征向量的选择)的变化。

  • 与主成分分析(PCA)有很强的联系仅此一项就有助于解释“它来自哪里”和“为什么”的问题——如果你还没有被让数据确定你用来描述和测量它们的坐标的优雅和实用性所说服的话差异。

  • 对于多元正态分布(我们可以使用概率密度的属性而不是点云的类似属性来执行相同的构造),马氏距离(到新原点)出现在表达式表征标准正态分布的概率密度。因此,在新坐标中,多元正态分布看起来是标准正态分布xexp(12x2)当投影到通过原点的任何线上时。特别是,它在每个新坐标中都是标准法线。从这个角度来看,多元正态分布彼此不同的唯一实质意义在于它们使用了多少维。(请注意,此维度数可能(有时是)小于标称维度数。)

我奶奶做饭。你的也可能。烹饪是教授统计学的好方法。

南瓜哈瓦那饼干太棒了!想想肉桂生姜在圣诞大餐中的美妙之处,然后意识到它们自己有多热。

成分是:

  • 哈瓦那辣椒(10 个,去籽并切碎)
  • 糖(1.5 杯)
  • 黄油(1杯)
  • 香草精(1 茶匙)
  • 鸡蛋(2个中等)
  • 面粉(2.75 杯)
  • 小苏打(1茶匙)
  • 盐(1茶匙)

想象一下您的域的坐标轴是成分体积。糖。面粉。盐。小苏打。沿这些方向的变化,在其他条件相同的情况下,几乎不会像哈瓦那辣椒数量的变化那样对风味质量产生影响。面粉或黄油的 10% 变化会使其变得不那么好,但不是致命的。添加少量更多的哈瓦那人会让你从令人上瘾的甜点到以睾酮为基础的疼痛竞赛的风味悬崖。

Mahalanobis 与“配料量”的距离远不如与“最佳口味”的距离。真正“有效”的成分,对变化非常敏感的成分,是您必须最仔细控制的成分。

如果您考虑任何高斯分布与标准正态分布,有什么区别?基于集中趋势(平均值)和变化趋势(标准差)的中心和刻度。一个是另一个的坐标变换。Mahalanobis 就是这种变换。如果您的兴趣分布被重新转换为标准正态分布而不是高斯分布,它将向您展示世界的样子。

我想为 Whiber 的出色回答添加一些技术信息。奶奶可能不会对这些信息感兴趣,但也许她的孙子会觉得它有帮助。以下是相关线性代数的自下而上的解释。

马氏距离定义为d(x,y)=(xy)TΣ1(xy), 在哪里Σ是对某些数据的协方差矩阵的估计;这意味着它是对称的。如果用于估计的列Σ不是线性相关的,Σ是肯定的。对称矩阵是可对角化的,并且它们的特征值和特征向量是实数。PD 矩阵的特征值都是正的。特征向量可以选择具有单位长度,并且是正交的(即正交),所以我们可以写Σ=QTDQΣ1=QD12D12QT. 将其代入距离定义,d(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTz. 显然,方括号中的产品是转置的,乘以的效果Q正在旋转矢量(xy)成正交基。最后,D12,它是对角线,通过反转对角线上的每个元素,然后取平方根,重新缩放每个向量的每个元素。实际上,D12恰好是正交空间中每个特征的逆标准差(即D1一个精度矩阵,并且因为数据是正交基,所以矩阵是对角的)。其效果是通过“展平”其轴将 Whiber 所谓的旋转椭圆转换为圆形。清楚地zTz以平方单位测量,因此取平方根会将距离返回到原始单位。

作为起点,我将马氏距离视为通常欧几里得距离的合适变形d(x,y)=x,y向量之间xyRn. 这里的额外信息是实际上是随机的2 个不同实现,位于我们讨论的背景中。Mahalanobis 试图解决的问题如下:xyX

“我如何测量之间的“差异” ,知道它们是同一个多元随机变量的实现? xy

显然,任何实现与其自身的相异性应该等于 0;此外,差异应该是实现的对称函数,并且应该反映背景中随机过程的存在。通过引入多元随机变量来考虑最后一个方面。xC

收集上述想法,我们很自然地得出

D(x,y)=(xy)C1(xy)

如果多元随机变量的分量不相关,例如 (我们“标准化”以使 ),那么马氏距离之间的欧几里得距离在存在非平凡相关的情况下,(估计的)相关矩阵 “变形”欧几里得距离。XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)