不确定数据的直方图

机器算法验证 数据可视化 标准错误 直方图 不确定
2022-04-04 17:50:21

我有一组值,每个值都有自己的均值和方差。当我绘制均值的直方图时,我希望能够解释这种差异。类似于垃圾箱上的错误栏。有没有一种常用的方法呢?

2个回答

我不清楚为什么这会是一个简单的单变量分布图中的问题。然而,值得知道直方图通常不被认为是可视化单变量分布的一种非常好的方法。 核密度图一般认为比较好。这些是通过为每个数据点绘制一个非常小的分布(通常是正态的)来估计的。平均值以相关数据为中心;然后需要确定分布的 SD(有一些相当标准的算法)。绘制完所有分布后,将这些绘制分布的垂直位置在水平轴上的每个点上求和,这组 (x,y) 对形成最终绘制的曲线(在链接的维基百科页面)。您可以做的是使用每个点的已知方差。这很可能需要您进行一些编程,但应该不会太难。

虽然我认为@gung 的答案在这里可能是正确的方法,但我想以自己的方式解决最初的问题;我认为这是一个有趣的问题,也值得回答。

这里有两个问题:

1) 直方图条已经具有与它们相关的不确定性

2)您显然是在谈论不确定性的另一个来源(或者,取决于您的均值和标准偏差的产生方式,可以说是不同情况下的不同来源),因为不确定观察应该“真正”计入哪个栏。如果我们对分布做出一些假设,我们可以计算出来。

考虑一个“观察”,,标准偏差为我将把这些视为已知值而不是估计值。misi

然后,就像@gung 的回答一样,我们将这些值替换为具有相同均值和标准差的内核(如果我们希望直方图估计密度,则为我将假设一个高斯核,但如果您认为其他分布假设更合适,您肯定会使用它。如果您想提高计算效率,您可以考虑使用有限范围的内核,例如 Epanechnikov。1/n

对于每个小内核,每个直方图 bin 中都有一定的比例。假设bin的面积比例为那么该点概率的比例对该箱的方差的贡献就是伯努利方差因此,对于 bin,您只需将每个点的这些贡献相加:ikpikpik(1pik)k

ipik(1pik)

如果这些是估计的而不是已知的,它会变得更加复杂......并且您需要考虑第一个不确定性来源。ms