在两个正态分布的混合下:
https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions
“两个正态分布的混合有五个要估计的参数:两个均值、两个方差和混合参数。具有相等标准差的两个正态分布的混合只有当它们的均值相差至少两倍于常见标准差时才是双峰的。”
我正在寻找关于为什么这是真的推导或直观的解释。我相信或许可以用两样本t检验的形式来解释:
其中是合并的标准差。
在两个正态分布的混合下:
https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions
“两个正态分布的混合有五个要估计的参数:两个均值、两个方差和混合参数。具有相等标准差的两个正态分布的混合只有当它们的均值相差至少两倍于常见标准差时才是双峰的。”
我正在寻找关于为什么这是真的推导或直观的解释。我相信或许可以用两样本t检验的形式来解释:
其中是合并的标准差。
这是图片可能具有欺骗性的情况,因为此结果是正态混合物的一个特殊特征:模拟不一定适用于其他混合物,即使分量是对称的单峰分布!例如,两个Student t 分布的相等混合,其距离小于其共同标准差的两倍,这将是双峰的。那么,为了获得真正的洞察力,我们必须做一些数学运算或诉诸正态分布的特殊属性。
选择测量单位(根据需要通过重新调整和重新缩放)将分量分布的均值置于并使它们的共同方差统一。设是混合物中较大平均成分的量。这使我们能够将混合密度完全概括为
因为两个分量密度在处减小,所以唯一可能的模式出现在与微分并将其设置为零来 找到它们。清除我们获得的任何正系数
的二阶导数执行类似的操作 并用前面等式确定的值替换告诉我们,二阶导数在任何临界点的符号是
因为当的符号是很明显,当符号必须为负。然而,在多模态分布中(因为密度是连续的),在任何两个模态之间都必须存在反模态,其中符号为非负数。因此,当小于(SD)时,分布必须是单峰的。
由于均值的分离为因此该分析的结论是
只要均值之间的距离不超过共同标准差的两倍,正态分布的混合就是单峰的。
这在逻辑上等同于问题中的陈述。
上面的评论粘贴在这里以保持连续性:
“[F] 通常,对于具有相同 SD σ 的两个正态分布的 50:50 混合,如果您以完整形式写出密度来显示参数,当均值之间的距离从 2σ 以下增加到以上时,您将看到它的二阶导数在两个均值之间的中点处改变符号。”
评论继续:
在每种情况下,两条“混合”的正态曲线都有从左到右,均值之间的距离分别为和。均值之间的中点 (1.5) 处的混合密度的凹度从负变为零,再变为正。
图的R代码:
par(mfrow=c(1,3))
curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3",
lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange",
lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet",
lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))