假设我们在一个维空间中,并且我们有大量数据。这个维点云的分布可以通过多元高斯混合模型(使用 EM 算法估计)来建模。
现在,给定数据集中的两个数据点和,在给定全局分布的情况下,我可以使用哪个距离来评估这两个点的接近度?
在单个高斯的情况下,我认为马氏距离是一个自然的选择,但是当已知全局分布是非高斯分布并且使用 GMM 对数据进行建模时,我们最终会得到个不同的协方差矩阵(每个高斯一个)。我是否应该计算 Mahlanobis 距离(每个协方差矩阵一个),然后使用高斯的后验概率进行加权求和?可能是这样的:
其中是第个高斯是向量关于高斯的后验概率。
有什么建议么 ?谢谢 !