观测级别的马氏距离分布

机器算法验证 多元分析 异常值
2022-01-30 16:44:10

如果我有一个多元正态 iid 样本,并定义的马氏距离 [平方],使用矩阵进行加权),的分布是什么(马氏距离到样本均值使用样本协方差矩阵 )?X1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA di2(X¯,S)X¯S

我正在看一篇声称它是的论文,但这显然是错误的:使用(未知)总体平均向量分布和协方差矩阵。当插入样本类似物时,应该得到一个 Hotelling分布,或一个缩放的分布,或类似的东西,但不是我在Muirhead (2005)Anderson (2003)Mardia, Kent and Bibby (1979, 2003)中都找不到确切的结果χp2χp2di2(μ,Σ)T 2F()χp2. 显然,这些人并没有为异常值诊断而烦恼,因为多元正态分布是完美的,并且每次收集多元数据时都很容易获得:-/。

事情可能比这更复杂。Hotelling分布结果是基于假设向量部分和矩阵部分之间的独立性;这种独立性适用于,但不再适用于T 2X¯SXiS

2个回答

通过利用马氏距离 检查高斯混合建模替代链接)。见第 13 页,第二栏。作者还为推导分布提供了一些证据。分布是按比例缩放的。如果这对您不起作用,请告诉我。否则我明天可以检查 SS Wilks 书中的任何提示。

有3个相关分布。如前所述,如果使用真实的总体参数,则分布是的卡方。这也是具有估计参数和大样本量的渐近分布。df=p

另一个答案给出了最常见情况的正确分布,当观察本身是估计集的一部分时,估计参数: 但是,如果观测与参数估计无关,则分布与 Fisher 的 F 比分布成比例:

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)