用未知数量的高斯组合拟合直方图

数据挖掘 统计数据 初学者
2022-02-15 16:10:32

我有许多一维直方图形式的数据,举个例子,考虑http://pastebin.com/embed_js.php?i=1mNRuEHZ上的数据

直方图检验

我希望这些数据是从由高斯分布总和组成的 pdf 中获得的,但它们的实际数量是未知的。

然后我想用一个由高斯总和给出的模型来拟合这些数据

Fñ(X)=ķ=1ñCķ经验[-(X-一种ķ)22bķ2]

在哪里一种ķ,bķ,Cķ ñ原则上是要拟合的参数。

该问题可以看作是不同模型之间的模型选择问题Fñ对于所有可能的值ñ.

然后我的想法是通过固定的最小二乘法进行通常的拟合ñ然后比较不同的结果ñ通过拟合质量的一些统计测量,例如 Akaike 信息标准 (AIC)。这是一个可接受的测试吗?

对于上一个示例的数据(我从 3 个高斯测试中生成),我将获得

 N        AIC
 -------------
 1      +568.1
 2      +557.4
 3      -446.6
 4      -443.5
 5      -442.7

如您所见,AIC 迅速下降直到ñ=3,它开始再次非常缓慢地增加(由于过度拟合)。所以很明显ñ=3是这里的最佳选择。

我提到在某些情况下,我从同一个 pdf 中提取了更多数据直方图,所以我可以做一些交叉验证。虽然这总是一个很好的测试,但我的数据可用性因样本而异,所以我更愿意为单个直方图制定一个标准(如果测试的质量没有太大差异)。

1个回答

你几乎完成了你的结果。尝试用您的数据用 AIM 代替高斯总和的可能性,一旦您的可能性值稳定并且不随着高斯数的增加而增加,您就为您的 N 找到了正确的值。

您甚至可以尝试寻找 EM 算法来估计适合您数据的高斯混合。

L = f(N) 的值随着对数函数的增加而增加,所谓的“拐点”就是 N 的最佳值所在的位置!