机器算法验证 - 具有均匀与非均匀 Bins 的直方图 - 吾爱随笔录

具有均匀与非均匀 Bins 的直方图

机器算法验证非参数异常值直方图经验法则

2022-03-10 20:11:17

这个问题描述了均匀直方图和非均匀直方图之间的基本区别。这个问题讨论了挑选均匀直方图的箱数的经验法则，该直方图优化了（在某种意义上）直方图表示从中提取数据样本的分布的程度。

我似乎找不到关于均匀直方图与非均匀直方图的相同类型的“最优性”讨论。我有一个聚集的非参数分布，离群值很远，所以不均匀的直方图直观地更有意义。但我希望看到对以下两个问题的更精确分析：

什么时候统一箱直方图比非统一箱直方图更好？
对于非均匀直方图，多少箱是合适的？

对于非均匀直方图，我被认为是最简单的情况，我们从未知分布中值排序，然后将它们分成个 bin ，这样每个 bin 都有样本（假设对于一些大整数）。范围是通过取 bin i 中的值的 maxbin 中的值的之间的中点形成的。这里和这里是描述这些类型的非均匀直方图的链接。 $n$ $n$ $k$ $\frac{k}{n}$ $n \equiv c k$ $c$ $\max$ $i$ $\min$ $i+1$

1个回答

什么时候统一箱直方图比非统一箱直方图更好？

这需要对我们要优化的内容进行某种识别；许多人试图优化平均积分均方误差，但在很多情况下，我认为这有点忽略了做直方图的意义；它经常（在我看来）“过度平滑”；对于像直方图这样的探索性工具，我可以容忍更多的粗糙度，因为粗糙度本身让我感觉到我应该用肉眼“平滑”到什么程度；我倾向于将此类规则中的垃圾箱数量至少增加一倍，有时甚至更多。我倾向于同意Andrew Gelman的观点；事实上，如果我的兴趣真的是获得一个好的 AIMSE，我可能无论如何都不应该考虑直方图。

所以我们需要一个标准。

让我首先讨论非等面积直方图的一些选项：

有一些方法可以在密度较低的区域进行更多的平滑处理（更少、更宽的 bin），并在密度较高的区域使用更窄的 bin - 例如“等面积”或“等计数”直方图。您编辑的问题似乎考虑了相等计数的可能性。

histogramR包中的函数lattice可以产生近似等面积的条：

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

等宽等面积比较

如果您采用第四根，则最左侧垃圾箱右侧的下降会更加清晰。使用等宽的垃圾箱，除非您使用 15 到 20 倍的垃圾箱，否则您看不到它，然后右尾看起来很糟糕。

这里有一个相等计数的直方图，带有 R 代码，它使用样本分位数来查找中断。

例如，在与上述相同的数据上，这里有 6 个箱，每个箱（希望）有 8 个观察值：

等数直方图

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

这个 CV 问题指向Denby 和 Mallows的一篇论文，其版本可从此处下载，该版本描述了等宽 bin 和等面积 bin 之间的折衷方案。

它也在一定程度上解决了你的问题。

您也许可以将此问题视为识别分段常数泊松过程中的中断之一。这将导致这样的工作。还有一种相关的可能性是在（比如）泊松计数上查看聚类/分类类型算法，其中一些算法会产生许多箱。聚类已用于二维直方图（实际上是图像）来识别相对同质的区域。

如果我们有一个相等计数的直方图和一些优化标准，那么我们可以尝试每个 bin 的一系列计数并以某种方式评估标准。此处提到的 Wand 论文[论文或工作论文 pdf ] 及其一些参考资料（例如 Sheather 等人的论文）概述了基于内核平滑思想的“插入式”bin 宽度估计，以优化 AIMSE；从广义上讲，这种方法应该适用于这种情况，尽管我不记得看到它完成了。

其它你可能感兴趣的问题

上一篇非参数贝叶斯模型的入门教科书？下一篇与在回归中建立多个模型相比，插补有什么优势？