有限高斯混合和高斯之间的距离是多少?

机器算法验证 正态分布 混合分布 距离
2022-03-29 07:08:30

假设我混合了有限多个具有已知权重、均值和标准差的高斯分布。手段不均等。当然,可以计算混合物的平均值和标准差,因为矩是分量矩的加权平均值。混合不是正态分布,但它离正态有多远?

由 2 个标准差分隔的高斯混合与具有相同均值和方差的高斯

上图显示了高斯混合的概率密度,其分量均值由2(组件的)标准偏差和具有相同均值和方差的单个高斯。

以 1 个标准差分隔的高斯混合与具有相同均值和方差的高斯

这里的手段是分开的1标准偏差,并且很难通过肉眼将混合物与高斯分开。


动机:我不同意一些懒惰的人关于他们没有测量的一些实际分布,他们认为这些分布接近正常,因为那会很好。我也很懒 我也不想测量分布。我想说他们的假设是不一致的,因为他们说具有不同均值的高斯的有限混合是不正确的高斯。我不只是想说尾巴的渐近形状是错误的,因为这些只是近似值,只能在平均值的几个标准偏差内合理准确。我想说的是,如果成分与正态分布非常接近,那么混合物就不是,我希望能够对此进行量化。


我不知道正常使用的正确距离:CDF 之间的差异的上限值,L1距离,推土机的距离,KL散度等。我很乐意根据这些或其他措施获得界限。我很高兴知道与混合的均值和标准差相同的高斯距离,或者任何高斯的最小距离。如果有帮助,您可以限制混合物是2高斯使得较小的权重大于1/4.

2个回答

KL 发散是自然的,因为您有一个自然的基分布,即单一高斯分布,您的混合从该分布发散。另一方面,两个高斯混合之间的 KL 散度(或其对称的“距离”形式),您的问题是一个特例,通常似乎很难处理。 Hershey 和 Olson (2007)看起来像是对可用近似值的合理总结,包括可能提供更容易界限的变分方法。

但是,如果您想就假设某事物实际上是混合的高斯的不良影响进行争论,那么最好对您真正感兴趣的后果有一个很好的了解——比简单地“错了”更具体'(这是@Michael-Chernick 的观点)。例如,测试的结果、间隔或类似的结果。混合的两个明显影响是过度分散,这几乎可以保证,以及多模态,这会使最大化者感到困惑。

让我继续考虑不正确的分布规范的后果。您可以评估自定义的“差异”度量,而不是使用通用的距离度量,例如 KL Divergence,这与手头的后果密切相关。

例如,如果将分布用于风险计算,例如确定故障概率足够低,那么拟合中唯一重要的是极端尾部的概率计算。这可能与数十亿美元项目的决策有关,并涉及生死攸关的问题。

Normal 假设最不准确的地方在哪里?在许多情况下,在极端的尾巴中,唯一对这些关键风险计算很重要的地方。例如,如果您的真实分布是均值相同但标准差不同的正态分布的混合,则混合分布的尾部比均值和标准差相同的正态分布的尾部更胖。这很容易导致极端尾部概率的数量级差异(风险低估)。

因此,例如,在关键级别ü, 相关的差异度量可能是(X一世Xre>ü)-(Xñr一种l>ü). 在这种情况下,协议在分发的其余部分中有多好并不重要。