机器算法验证 - 如何涂抹直方图 - 吾爱随笔录

如何涂抹直方图

机器算法验证自习直方图平滑克德

2022-03-22 00:11:37

我被要求对直方图的 bin 进行高斯涂抹。这是什么意思？

2个回答

术语似乎有所不同（在许多领域中使用的学科经常是这种情况），所以我不是 100% 确定，但我认为他们指的是内核密度估计，具有高斯内核，但对分箱数据执行。

[编辑：如果有人熟悉“高斯拖尾”一词在物理学中的使用方式——以及它如何应用于直方图——可以加入，那会很好]

在这种情况下，每个观察都被一个缩放的密度（或更一般地说，一个内核，它不一定是正的）替换，它已经缩放到以观察为中心的面积 $\frac{1}{n}$

内核的尺度（高斯情况下的标准偏差）是一个可调平滑参数。

大概的目的是在平滑之前将观察结果放在 bin 中心（这种离散性导致需要更大的内核带宽来实现给定的平滑度，尽管如果 bin 相对于默认带宽较小，则效果非常小）；另一种选择是将观察结果分散到他们的垃圾箱中，尽管我怀疑这不是您的请求的意图。

在未装箱的情况下，这里是这个想法的一个说明。下面是 7 个观测值
(5.996 22.687 8.868 15.883 14.727 5.896 9.397) 标记为“+”符号（最左侧有两个几乎重合），其中一个点 (14.727) 用粗体红色标记。小红密度有带宽2.5的高斯核；在其他每个点上方都有灰色内核。绿色虚线曲线是核密度估计，它来自于对精细网格点的密度求和并连接以给出平滑曲线。

核密度估计

我在插图中使用的带宽有点小。有一些自动选择带宽的方法通常做得很好。我在 R 中进行了计算；像许多其他统计数据包一样，它具有自动化整个过程的功能，因此我可以执行以下操作来获得像绿色虚线那样的图：

a = c(5.996, 22.687, 8.868, 15.883, 14.727, 5.896, 9.397)
plot(density(a,bw=2.5))

下面是同一程序中默认带宽生成的内核密度估计（即使用density(a)）：

默认带宽

如您所见，它更宽，并获得了更平滑的效果。当然，7个观察是不现实的；这是来自 gamma(10,1) 的 200 个观测值的直方图和核密度估计：

gamma(10) rv 的 hist 和 kde，n = 200

如果你点击kde你帖子的标签（我相信它是在编辑中添加的），你会在这里看到很多关于这个主题的帖子。从外观上看，还有一个kernel标签，它似乎大部分都在做同样的工作（尽管kernel可以参考密度估计以外的其他东西），并且仍然有更多的点击量。

正如 Glen_b 所指出的，请求者可能指的是内核密度平滑器，但“涂抹”让人联想到Visual Statistics书中的影子图。为了解决选择正确的 bin 或内核宽度的问题，shadowgram 是许多不同宽度选择的叠加。

在此处输入图像描述

其它你可能感兴趣的问题

上一篇矩阵的第一列如何与其他所有列正交下一篇当使用线性回归分析来获得结果的拟合值时，为什么更极端的值往往被预测得更接近均值？