直方图中的区间数是否有上限?

机器算法验证 分布 数据可视化 直方图
2022-02-27 03:07:19

我已经阅读了几篇文章和书籍摘录,这些文章和摘录解释了如何为数据集的直方图选择大量的间隔(箱),但我想知道是否存在基于点数的硬性最大间隔数数据集或其他一些标准。

背景:我问的原因是我正在尝试根据研究论文中的程序编写软件。该过程的一个步骤是从数据集中创建多个直方图,然后根据特征函数(由论文作者定义)选择最佳分辨率。我的问题是作者没有提到要测试的间隔数的上限。(我有数百个要分析的数据集,每个数据集都可以有不同的“最佳”箱数。此外,选择最佳箱数很重要,因此手动查看结果并选择好的一个不会工作。)

将最大间隔数简单地设置为数据集中的点数是一个很好的指导方针,还是有一些其他通常用于统计的标准?

3个回答

确实没有任何硬性上限,但另一方面,在大多数情况下,一旦你在自己的 bin 中获得了所有独特的观察结果,更精细的 bin 只会更精确地确定它们的位置,而不会传达更多信息。例如比较这些:

具有 30 个 bin 的直方图
具有 100 个 bin 的直方图

除了在某些非常特殊的情况下,第二个情节可能没有实际好处,而第一个情节也没有那么多。如果您的数据是连续的,那么这可能超出了有用的 bin 数量。

所以在大多数情况下,这似乎至少是一个实际的上限——每一个独特的观察都在自己的箱子里。

(如果每个独特观察箱数多于一个箱,您可能应该做一个地毯图或抖动的条形图来获取此类信息) - 就像在这些直方图的边缘所做的那样:

带抖动的直方图地毯图
带条形图的直方图

(这些直方图取自这个答案,接近尾声)

直方图中的 bin 数量没有硬性最大值。如果要绘制的变量是连续的,则可以为无限数量的类别进行参数(并且直方图基本上变成了地毯图)。

数据集中的点数不是合适的上限。考虑一个包含两个值的数据集:1 和 1000。有两个 bin 是不合适的。

确定上限的两种实用方法是: a) 确定数据的基本舍入。例如,如果数据是整数,那么使用整数宽度的 bin 是有意义的。b) 查看最大可见分辨率(例如,可用于绘图的水平维度上的像素数)。

当怀疑直方图的细节不是噪声,而是有趣或重要的精细结构时,有大量的 bin 是一个很好的例子,例如每个可能值的 bin。

这与该问题的确切动机没有直接关系,需要针对某些最佳箱数的自动规则,但它与整个问题相关。

让我们立即跳到例子。在人口统计中,报告年龄的四舍五入很常见,尤其是但不仅在识字率有限的国家。可能发生的情况是,许多人不知道他们的确切出生日期,或者有社会或个人原因低估或夸大他们的年龄。军事历史上充斥着人们为了避免或寻求在武装部队服役而谎报年龄的例子。事实上,许多读者会认识一个非常腼腆或不太真实的人,即使他们没有在人口普查中撒谎。最终结果各不相同,但正如已经暗示的那样,通常是四舍五入,例如,以 0 和 5 结尾的年龄比一岁或一年以上的年龄更常见。

即使对于完全不同的问题,类似的数字偏好现象也很常见。对于一些老式的测量方法,报告测量的最后一位数字必须通过在刻度标记之间的插值来用肉眼测量。这是水银温度计气象学的长期标准。已经发现,总体而言,一些报告的数字比其他数字更常见,而且我们中的许多人都有签名,这是一种偏爱某些数字而不是其他数字的个人模式。这里通常的参考分布是均匀的,也就是说,只要可能测量的范围比测量的“单位”大很多倍,最后的数字预计会以相同的频率出现。因此,如果报告的阴凉温度可以覆盖(比如说)50C 最后十位数字,度数的小数部分 .0, .1,, .8, .9 都应该以 0.1 的概率出现。即使在更有限的范围内,这种近似的质量也应该很好。

顺便说一句,查看报告数据的最后一位数字是检查虚假数据的一种简单而有效的方法,与目前流行的本福德定律对第一位数字的审查相比,这种方法更容易理解且问题更少。

直方图的结果现在应该很清楚了。类似尖峰的演示文稿可以用来显示或更一般地检查这种精细结构。自然地,如果没有任何感兴趣的东西是可辨别的,那么该图可能没有什么用处。

一个例子显示了 1960 年加纳人口普查的年龄堆积。见http://www.stata.com/manuals13/rspikeplot.pdf

对最终数字的分布进行了很好的审查

Preece, DA 1981。数据中最终数字的分布。统计学家30:31-60。

关于术语的注释:有些人在谈论变量的不同值时会更好地谈论变量的唯一值。字典和使用指南仍然建议“唯一”意味着只出现一次。因此,人口的不同报告年龄可能是 0、1、2 岁等,但这些年龄中的绝大多数将不是一个人独有的。