当怀疑直方图的细节不是噪声,而是有趣或重要的精细结构时,有大量的 bin 是一个很好的例子,例如每个可能值的 bin。
这与该问题的确切动机没有直接关系,需要针对某些最佳箱数的自动规则,但它与整个问题相关。
让我们立即跳到例子。在人口统计中,报告年龄的四舍五入很常见,尤其是但不仅在识字率有限的国家。可能发生的情况是,许多人不知道他们的确切出生日期,或者有社会或个人原因低估或夸大他们的年龄。军事历史上充斥着人们为了避免或寻求在武装部队服役而谎报年龄的例子。事实上,许多读者会认识一个非常腼腆或不太真实的人,即使他们没有在人口普查中撒谎。最终结果各不相同,但正如已经暗示的那样,通常是四舍五入,例如,以 0 和 5 结尾的年龄比一岁或一年以上的年龄更常见。
即使对于完全不同的问题,类似的数字偏好现象也很常见。对于一些老式的测量方法,报告测量的最后一位数字必须通过在刻度标记之间的插值来用肉眼测量。这是水银温度计气象学的长期标准。已经发现,总体而言,一些报告的数字比其他数字更常见,而且我们中的许多人都有签名,这是一种偏爱某些数字而不是其他数字的个人模式。这里通常的参考分布是均匀的,也就是说,只要可能测量的范围比测量的“单位”大很多倍,最后的数字预计会以相同的频率出现。因此,如果报告的阴凉温度可以覆盖(比如说)50∘C 最后十位数字,度数的小数部分 .0, .1,⋯, .8, .9 都应该以 0.1 的概率出现。即使在更有限的范围内,这种近似的质量也应该很好。
顺便说一句,查看报告数据的最后一位数字是检查虚假数据的一种简单而有效的方法,与目前流行的本福德定律对第一位数字的审查相比,这种方法更容易理解且问题更少。
直方图的结果现在应该很清楚了。类似尖峰的演示文稿可以用来显示或更一般地检查这种精细结构。自然地,如果没有任何感兴趣的东西是可辨别的,那么该图可能没有什么用处。
一个例子显示了 1960 年加纳人口普查的年龄堆积。见http://www.stata.com/manuals13/rspikeplot.pdf
对最终数字的分布进行了很好的审查
Preece, DA 1981。数据中最终数字的分布。统计学家30:31-60。
关于术语的注释:有些人在谈论变量的不同值时会更好地谈论变量的唯一值。字典和使用指南仍然建议“唯一”意味着只出现一次。因此,人口的不同报告年龄可能是 0、1、2 岁等,但这些年龄中的绝大多数将不是一个人独有的。