我处理来自产生数十亿计数直方图的质谱仪的数据,我需要一种很好的方法来测试这些直方图是否与一个或多个模型分布(高斯、重尾、多峰等)一致。异常值可能存在于大部分直方图中,如果不是全部的话。直方图可能有 0 到 10^6 的计数,并且它们已经离散化,因此直方图不会丢失与原始观察相关的任何信息。
作为一个受过物理学家培训的天真万事通的数据分析师,我的直觉是做以下事情:
对于每个模型分布,
- 使用矩估计其参数或使用泊松似然进行非线性拟合(因为这是计数数据,每个 bin 都是泊松随机变量)
- 计算数据的与拟合分布
然后,使用手头几个模型的卡方值......
- 选择具有最佳值的模型
- 如果太大(参考具有适当自由度
我很好奇是否更有经验的统计学家可以就这个程序是否有意义、我可能遇到的限制、更好的替代方案等向我提供建议。以下是我想知道的几件事:
- 对于计数很少的直方图,我觉得在拟合优度指标中使用泊松似然 / Kullback-Leibler 散度而不是在检验统计量中使用的平方和更有意义。用在试衣间最合适,为什么不在测试中呢?但我不知道有什么常用的测试可以这样工作。我四处搜索泊松直方图拟合优度测试,但一无所获。
- 我有一种模糊的感觉,我应该使用一些 AIC 类型的东西来解释分布中的参数数量,但也许这已经进入了自由度。