为什么两个正态分布变量的混合只有双峰,如果它们的平均值相差至少两倍共同标准偏差?

机器算法验证 双峰
2022-02-08 02:50:59

在两个正态分布的混合下:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

“两个正态分布的混合有五个要估计的参数:两个均值、两个方差和混合参数。具有相等标准差的两个正态分布的混合只有当它们的均值相差至少两倍于常见标准差时才是双峰的。”

我正在寻找关于为什么这是真的推导或直观的解释。我相信或许可以用两样本t检验的形式来解释:

μ1μ2σp

其中是合并的标准差。σp

3个回答

该维基文章中链接的论文中的这张图提供了一个很好的说明: 在此处输入图像描述

他们提供的证明是基于正态分布在其平均值的一个 SD 内是凹的(SD 是正态 pdf 的拐点,它从凹到凸)。因此,如果将两个普通 pdf 相加(以相等的比例),那么只要它们的均值相差小于两个 SD,sum-pdf(即混合)将在两个均值之间的区域中是凹的,因此全局最大值必须正好在两个平均值之间。

参考:Schilling, MF, Watkins, AE 和 Watkins, W. (2002)。人的身高是双峰的吗?美国统计学家, 56(3),223–229。doi:10.1198/00031300265

这是图片可能具有欺骗性的情况,因为此结果是正态混合物的一个特殊特征:模拟不一定适用于其他混合物,即使分量是对称的单峰分布!例如,两个Student t 分布的相等混合,其距离小于其共同标准差的两倍,这将是双峰的。那么,为了获得真正的洞察力,我们必须做一些数学运算或诉诸正态分布的特殊属性。


选择测量单位(根据需要通过重新调整和重新缩放)将分量分布的均值置于并使它们的共同方差统一。是混合物中较大平均成分的量。这使我们能够将混合密度完全概括为±μ, μ0,p, 0<p<1,

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

因为两个分量密度在处减小,所以唯一可能的模式出现在微分并将其设置为零来 找到它们。清除我们获得的任何正系数x<μx>μ,μxμ.fx

0=e2xμp(xμ)+(1p)(x+μ).

的二阶导数执行类似的操作 并用前面等式确定的值替换告诉我们,二阶导数在任何临界点的符号是fe2xμ

f(x;μ,p)(1+x2μ2)xμ.

因为当的符号很明显,当符号必须为负。然而,在多模态分布中(因为密度是连续的),在任何两个模态之间都必须存在反模态,其中符号为非负数。因此,当小于(SD)时,分布必须是单峰的。μ<x<μ,f(1μ2+x2).μ1,μ1

由于均值的分离为因此该分析的结论是2μ,

只要均值之间的距离不超过共同标准差的两倍,正态分布的混合就是单峰的。

这在逻辑上等同于问题中的陈述。

上面的评论粘贴在这里以保持连续性:

“[F] 通常,对于具有相同 SD σ 的两个正态分布的 50:50 混合,如果您以完整形式写出密度来显示参数,当均值之间的距离从 2σ 以下增加到以上时,您将看到它的二阶导数在两个均值之间的中点处改变符号。”

f(x)=0.5g1(x)+0.5g2(x)

评论继续:

在每种情况下,两条“混合”的正态曲线都有从左到右,均值之间的距离分别为均值之间的中点 (1.5) 处的混合密度的凹度从负变为零,再变为正。σ=1.3σ,2σ,σ,

在此处输入图像描述

图的R代码:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))