我有许多一维直方图形式的数据,举个例子,考虑http://pastebin.com/embed_js.php?i=1mNRuEHZ上的数据
我希望这些数据是从由高斯分布总和组成的 pdf 中获得的,但它们的实际数量是未知的。
然后我想用一个由高斯总和给出的模型来拟合这些数据
在哪里,, 和 原则上是要拟合的参数。
该问题可以看作是不同模型之间的模型选择问题对于所有可能的值.
然后我的想法是通过固定的最小二乘法进行通常的拟合然后比较不同的结果通过拟合质量的一些统计测量,例如 Akaike 信息标准 (AIC)。这是一个可接受的测试吗?
对于上一个示例的数据(我从 3 个高斯测试中生成),我将获得
N AIC
-------------
1 +568.1
2 +557.4
3 -446.6
4 -443.5
5 -442.7
如您所见,AIC 迅速下降直到,它开始再次非常缓慢地增加(由于过度拟合)。所以很明显是这里的最佳选择。
我提到在某些情况下,我从同一个 pdf 中提取了更多数据直方图,所以我可以做一些交叉验证。虽然这总是一个很好的测试,但我的数据可用性因样本而异,所以我更愿意为单个直方图制定一个标准(如果测试的质量没有太大差异)。
