具有均匀与非均匀 Bins 的直方图

机器算法验证 非参数 异常值 直方图 经验法则
2022-03-10 20:11:17

这个问题描述了均匀直方图和非均匀直方图之间的基本区别。这个问题讨论了挑选均匀直方图的箱数的经验法则,该直方图优化了(在某种意义上)直方图表示从中提取数据样本的分布的程度。

我似乎找不到关于均匀直方图与非均匀直方图的相同类型的“最优性”讨论。我有一个聚集的非参数分布,离群值很远,所以不均匀的直方图直观地更有意义。但我希望看到对以下两个问题的更精确分析:

  1. 什么时候统一箱直方图比非统一箱直方图更好?
  2. 对于非均匀直方图,多少箱是合适的?

对于非均匀直方图,我被认为是最简单的情况,我们从未知分布中值排序,然后将它们分成个 bin ,这样每个 bin 都有样本(假设对于一些大整数)。范围是通过取 bin i 中的值的\ maxbin i+1中的值的\min之间的中点形成的。这里这里是描述这些类型的非均匀直方图的链接。nnkknnckcmaximini+1

1个回答

什么时候统一箱直方图比非统一箱直方图更好?

这需要对我们要优化的内容进行某种识别;许多人试图优化平均积分均方误差,但在很多情况下,我认为这有点忽略了做直方图的意义;它经常(在我看来)“过度平滑”;对于像直方图这样的探索性工具,我可以容忍更多的粗糙度,因为粗糙度本身让我感觉到我应该用肉眼“平滑”到什么程度;我倾向于将此类规则中的垃圾箱数量至少增加一倍,有时甚至更多。我倾向于同意Andrew Gelman的观点;事实上,如果我的兴趣真的是获得一个好的 AIMSE,我可能无论如何都不应该考虑直方图。

所以我们需要一个标准。

让我首先讨论非等面积直方图的一些选项:

有一些方法可以在密度较低的区域进行更多的平滑处理(更少、更宽的 bin),并在密度较高的区域使用更窄的 bin - 例如“等面积”或“等计数”直方图。您编辑的问题似乎考虑了相等计数的可能性。

histogramR包中的函数lattice可以产生近似等面积的条:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

等宽等面积比较

如果您采用第四根,则最左侧垃圾箱右侧的下降会更加清晰。使用等宽的垃圾箱,除非您使用 15 到 20 倍的垃圾箱,否则您看不到它,然后右尾看起来很糟糕。

这里有一个相等计数的直方图,带有 R 代码,它使用样本分位数来查找中断。

例如,在与上述相同的数据上,这里有 6 个箱,每个箱(希望)有 8 个观察值:

等数直方图

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

这个 CV 问题指向Denby 和 Mallows的一篇论文,其版本可从此处下载,该版本描述了等宽 bin 和等面积 bin 之间的折衷方案。

它也在一定程度上解决了你的问题。

您也许可以将此问题视为识别分段常数泊松过程中的中断之一。这将导致这样的工作还有一种相关的可能性是在(比如)泊松计数上查看聚类/分类类型算法,其中一些算法会产生许多箱。聚类已用于二维直方图(实际上是图像)来识别相对同质的区域。

--

如果我们有一个相等计数的直方图和一些优化标准,那么我们可以尝试每个 bin 的一系列计数并以某种方式评估标准。此处提到的 Wand 论文[论文工作论文 pdf ] 及其一些参考资料(例如 Sheather 等人的论文)概述了基于内核平滑思想的“插入式”bin 宽度估计,以优化 AIMSE;从广义上讲,这种方法应该适用于这种情况,尽管我不记得看到它完成了。