当 bin 大小很重要时,将高斯拟合到直方图

机器算法验证 回归 贝叶斯 正态分布 拟合优度 间隔审查
2022-03-29 07:24:22

我想将高斯拟合到一些已分箱的实验数据(分箱是设备物理限制的结果)。重要的是,bin 大小足够重要,以至于在 bin 窗口中不能将高斯视为平坦的(见下图)。数据实际上是 3D 的,但让我们从 1D 示例开始。如何为拟合优度编写似然函数?

我的直觉是简单地考虑每个 bin 独立并将密度与 bin 窗口中的集成高斯密度进行比较:

p(D|Θ)=iNp(di|Θ)=iNf(dixixi+1ϕ(x|μ,σ)dx)
其中 N 是 bin 的数量,di是 bin 的 bin 高度i,ϕ(x|μ,σ)是高斯 PDF,积分超过 bin 宽度。我的问题是:我应该用什么f? 换言之,双方的协议如何diϕ分散式?

关键的附加问题:

  • 对于更高的维度,这个似然函数如何变化?
  • 高斯在有限 bin 大小上的积分计算起来非常昂贵。由于我的问题再次是 3D,我将不得不对数百万个 bin 进行多次数值积分。有更快的方法吗?

问题说明

3个回答

如果你知道yi[xj,xj+1), 在哪里xj是 bin 的切点,那么您可以将其视为区间删失数据。换句话说,对于您的情况,您可以将似然函数定义为

i=1n(Φ(ri|μ,σ)Φ(li|μ,σ))

在哪里liri是准确值所在的 bin 的上限和下限。

需要注意的是,对于间隔删失数据的许多模型,对数似然并不是严格凹的,但实际上这并没有太大的影响。

您应该将每个 bin 视为在其范围内均匀地生成随机点。因此计算每个 bin 的加权平均值(xl,xh]E(x)=xh+xl2E(x2)=xh2+xlxh+xl23. 这个加权平均值确定了一个高斯分布。

您可以通过将此高斯视为可能性来合并先验。

鉴于 whuber 对我上一个答案的评论,我建议您使用该答案来找到均值和方差μ,σ2作为起点。然后,计算观察到的 bin 计数的对数似然. 最后,通过梯度下降优化均值和方差。计算关于参数的对数似然梯度应该很容易。在我看来,这种对数似然是凸的。