我被要求对直方图的 bin 进行高斯涂抹。这是什么意思?
如何涂抹直方图
术语似乎有所不同(在许多领域中使用的学科经常是这种情况),所以我不是 100% 确定,但我认为他们指的是内核密度估计,具有高斯内核,但对分箱数据执行。
[编辑:如果有人熟悉“高斯拖尾”一词在物理学中的使用方式——以及它如何应用于直方图——可以加入,那会很好]
在这种情况下,每个观察都被一个缩放的密度(或更一般地说,一个内核,它不一定是正的)替换,它已经缩放到以观察为中心的面积
内核的尺度(高斯情况下的标准偏差)是一个可调平滑参数。
大概的目的是在平滑之前将观察结果放在 bin 中心(这种离散性导致需要更大的内核带宽来实现给定的平滑度,尽管如果 bin 相对于默认带宽较小,则效果非常小);另一种选择是将观察结果分散到他们的垃圾箱中,尽管我怀疑这不是您的请求的意图。
在未装箱的情况下,这里是这个想法的一个说明。下面是 7 个观测值
(5.996 22.687 8.868 15.883 14.727 5.896 9.397) 标记为“+”符号(最左侧有两个几乎重合),其中一个点 (14.727) 用粗体红色标记。小红密度有带宽2.5的高斯核;在其他每个点上方都有灰色内核。绿色虚线曲线是核密度估计,它来自于对精细网格点的密度求和并连接以给出平滑曲线。

我在插图中使用的带宽有点小。有一些自动选择带宽的方法通常做得很好。我在 R 中进行了计算;像许多其他统计数据包一样,它具有自动化整个过程的功能,因此我可以执行以下操作来获得像绿色虚线那样的图:
a = c(5.996, 22.687, 8.868, 15.883, 14.727, 5.896, 9.397)
plot(density(a,bw=2.5))
下面是同一程序中默认带宽生成的内核密度估计(即使用density(a)):

如您所见,它更宽,并获得了更平滑的效果。当然,7个观察是不现实的;这是来自 gamma(10,1) 的 200 个观测值的直方图和核密度估计:

如果你点击kde你帖子的标签(我相信它是在编辑中添加的),你会在这里看到很多关于这个主题的帖子。从外观上看,还有一个kernel标签,它似乎大部分都在做同样的工作(尽管kernel可以参考密度估计以外的其他东西),并且仍然有更多的点击量。
正如 Glen_b 所指出的,请求者可能指的是内核密度平滑器,但“涂抹”让人联想到Visual Statistics书中的影子图。为了解决选择正确的 bin 或内核宽度的问题,shadowgram 是许多不同宽度选择的叠加。
