用威尔克斯定理在有限混合中找到高斯数?

机器算法验证 假设检验 正态分布 期望最大化
2022-03-12 21:22:39

假设我有一组独立的、同分布的单变量观察x以及关于如何的两个假设x生成:

H0x是从具有未知均值和方差的单个高斯分布中得出的。

HAx是从具有未知均值、方差和混合系数的两个高斯的混合中得出的。

如果我理解正确,这些是嵌套模型,因为模型H0表示可以描述为HA如果您将两个高斯的参数约束为相同,或者将两个高斯之一的混合系数约束为零。

因此,您似乎应该能够使用 EM 算法来估计HA然后用 Wilks 定理判断数据是否符合HA明显大于下H0. 对于 EM 算法将收敛到最大似然度的假设,有一个小小的信念飞跃,但这是我愿意做的。

我在蒙特卡罗模拟中尝试了这个,假设HA自由度比多 3 个H0(第二个高斯和混合参数的均值和方差)。当我模拟来自H0,我得到了一个 P 值分布,它基本上是不均匀的,并且富含小 P 值。(如果 EM 没有收敛到真正的最大似然,则完全相反。)我应用 Wilks 定理导致这种偏差有什么问题?

2个回答

通过仔细说明零假设如何包含在双分量混合模型中,可以看出问题可能是什么。如果混合模型中的五个参数是μ1,μ2,σ1,σ2,ρ, 然后

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
因为两个正态混合分量中的任一个是相等的,在这种情况下混合比例ρ不相关,或混合比例ρ是 0 或 1,在这种情况下,混合成分之一是不相关的。结论是零假设不能被指定,甚至不能在本地指定,作为一个简单的参数限制,将参数空间的维数从 5 降到 2。

零假设是完整参数空间的一个复杂子集,在零假设下,参数甚至无法识别。获得威尔克定理所需的通常假设不成立,最值得注意的是,不可能构建对数似然的适当泰勒展开。

我对这个特定问题没有任何个人经验,但我知道在 null 下参数“消失”的其他情况,这似乎也是这种情况,在这些情况下,威尔克定理的结论也失效了. 除其他外,快速搜索给出了看起来相关的这篇论文,并且您可以在其中找到有关使用与混合模型相关的似然比检验的更多参考资料。

混合分量数的推断不满足 Wilks 定理所需的规律性条件,因为 (a) 参数ρ位于参数空间的边界上,并且 (b) 在 null 下参数化是不可识别的。这并不是说广义似然比的分布是未知的!如果您的设置中的所有 5 个参数都是未知的,并且更重要的是 - 无界 - 那么 LR 统计量的分布不会收敛。如果所有不可识别的参数都是有界的,则 LR 统计量在截断高斯过程的上确界中是单调的。在一般(5 参数)情况下,它的协方差不容易计算,即使你有它 - 这种过程的上确界分布也不容易近似。有关双组分混合物的一些实际结果,请参见此处. 有趣的是,该论文表明,在相当简单的设置中,LR 统计量实际上不如一些更简单的统计量强大。有关在此类问题中推导渐近分布的开创性论文,请参见此处出于所有实际目的,您可以使用 EM 拟合混合物,然后引导 LR 统计量的分布。这可能需要一些时间,因为众所周知 EM 很慢,并且您需要多次重复才能捕捉样本量的影响。有关详细信息,请参见此处