假设在制作直方图时,在 bin 边界处遇到一个数据。是否有关于如何舍入它的约定?例如,假设我的数据是整数百分比,从 0% 到 100%。我想制作一个边界为 10%、20% 等的直方图。当然,我可以通过标记类别 0-9、10-19 等来标记直方图以避免该问题。但假设我不想那样给他们贴标签。我可以通过简单地标记 10、20、30 等的 bin 边界来节省 x 轴上的空间。但是如果我在 20 处遇到一个基准,是否有关于它是否进入 10-20 bin 或20-30 箱?
制作直方图时四舍五入
我不相信有任何约定(请参阅下面的统计包摘要。)
为了考虑一组数据的分布(例如,使用直方图检查线性回归中残差的粗略正态性),这个决定有点武断(但可能会改变图形的形状,具体取决于有多少观察值落在断点上和数据集的大小)。
默认情况下,不同的计算机包以不同的方式处理断点上的值。如果您想在例如论文/论文中展示您的直方图,那么描述您使用的间隔类型当然会有所帮助。
要查看区间术语(请参阅Wikipedia以了解更多有关此内容的信息,或查看此StackOverflow 问题以获取 R 特定示例):
您给出的第一个示例将被描述为左闭右开区间,其中第一个 bin 为 $0 \leq x < 10$; 第二个 bin 是 $10 \leq x < 20$; 等等。所以 10 会进入第二个垃圾箱。; second bin is ; etc. So 10 would go in the second bin.
第二个例子是右闭左开区间,其中第一个 bin 是 $0 < x \leq 10$;第二个 bin 是 $10 < x \leq 20$; 等等。这里有 10 个进入第一个垃圾箱。; second bin is ; etc. And here 10 would go in the first bin.
默认情况下,R绘制具有右闭左开区间的直方图(请参阅right=TRUE此函数的选项);SAS默认为左闭右开(参见rtinclude该页上的选项)。我认为 Stata 也有左闭右开区间。
我更喜欢左闭右开区间,因为我发现这些直方图更易于阅读/解释。但是对于数据探索,我通常只使用我的包中的默认值(现在,R)。
发布后快速编辑:我将根据您的标记点添加,标准做法是仅标记 x 轴(0、10、20 等)中的边界/中断,而不是两个间隔结束( 0-9, 10-19 等),后者的缺点是它更杂乱,而且 9.5 或 9.9999(等等)会发生什么情况不明确。
在这里聚会很晚,但我认为有一个约定。约定似乎是下(左)界包含在一个类中。[1-3]
具体回答您的示例问题 - 20 的值应该进入 20-30 箱。
然而,正如 James 已经观察到的那样 - 并不总是遵守约定(特别是 Excel 数据分析直方图工具,它通过包含上限而不是下限而与之相反)。我还发现参考文献将(左或右包含)描述为约定 [4],并且至少有一个参考文献指出您正在使用哪个 [5] 暗示任何一个都是可以接受的(只要观众知道您用过的)。
注意:我专门寻找约定正是因为我试图确定当我发现这个问题时修改 Excel 直方图以匹配约定的重要性。我确实通过谷歌搜索直方图约定找到了很多其他链接。
参考:
虽然没有特别广泛的约定,但对我来说,遵循用于右连续 CDF 的约定是有意义的,因此通常使直方图包括其左边界但不包括其右边界,因此第 i 个区间为 $ [l_i,l_{i+1})$。至少这似乎更常见一些,但我没有确凿的证据来支持这种印象。-th interval is . This at least