什么时候统一箱直方图比非统一箱直方图更好?
这需要对我们要优化的内容进行某种识别;许多人试图优化平均积分均方误差,但在很多情况下,我认为这有点忽略了做直方图的意义;它经常(在我看来)“过度平滑”;对于像直方图这样的探索性工具,我可以容忍更多的粗糙度,因为粗糙度本身让我感觉到我应该用肉眼“平滑”到什么程度;我倾向于将此类规则中的垃圾箱数量至少增加一倍,有时甚至更多。我倾向于同意Andrew Gelman的观点;事实上,如果我的兴趣真的是获得一个好的 AIMSE,我可能无论如何都不应该考虑直方图。
所以我们需要一个标准。
让我首先讨论非等面积直方图的一些选项:
有一些方法可以在密度较低的区域进行更多的平滑处理(更少、更宽的 bin),并在密度较高的区域使用更窄的 bin - 例如“等面积”或“等计数”直方图。您编辑的问题似乎考虑了相等计数的可能性。
histogram
R包中的函数lattice
可以产生近似等面积的条:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area

如果您采用第四根,则最左侧垃圾箱右侧的下降会更加清晰。使用等宽的垃圾箱,除非您使用 15 到 20 倍的垃圾箱,否则您看不到它,然后右尾看起来很糟糕。
这里有一个相等计数的直方图,带有 R 代码,它使用样本分位数来查找中断。
例如,在与上述相同的数据上,这里有 6 个箱,每个箱(希望)有 8 个观察值:

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
这个 CV 问题指向Denby 和 Mallows的一篇论文,其版本可从此处下载,该版本描述了等宽 bin 和等面积 bin 之间的折衷方案。
它也在一定程度上解决了你的问题。
您也许可以将此问题视为识别分段常数泊松过程中的中断之一。这将导致这样的工作。还有一种相关的可能性是在(比如)泊松计数上查看聚类/分类类型算法,其中一些算法会产生许多箱。聚类已用于二维直方图(实际上是图像)来识别相对同质的区域。
--
如果我们有一个相等计数的直方图和一些优化标准,那么我们可以尝试每个 bin 的一系列计数并以某种方式评估标准。此处提到的 Wand 论文[论文或工作论文 pdf ] 及其一些参考资料(例如 Sheather 等人的论文)概述了基于内核平滑思想的“插入式”bin 宽度估计,以优化 AIMSE;从广义上讲,这种方法应该适用于这种情况,尽管我不记得看到它完成了。