制作直方图时四舍五入

机器算法验证 聚类 数据可视化 直方图
2022-03-21 00:15:28

假设在制作直方图时,在 bin 边界处遇到一个数据。是否有关于如何舍入它的约定?例如,假设我的数据是整数百分比,从 0% 到 100%。我想制作一个边界为 10%、20% 等的直方图。当然,我可以通过标记类别 0-9、10-19 等来标记直方图以避免该问题。但假设我不想那样给他们贴标签。我可以通过简单地标记 10、20、30 等的 bin 边界来节省 x 轴上的空间。但是如果我在 20 处遇到一个基准,是否有关于它是否进入 10-20 bin 或20-30 箱?

3个回答

我不相信有任何约定(请参阅下面的统计包摘要。)

为了考虑一组数据的分布(例如,使用直方图检查线性回归中残差的粗略正态性),这个决定有点武断(但可能会改变图形的形状,具体取决于有多少观察值落在断点上和数据集的大小)。

默认情况下,不同的计算机包以不同的方式处理断点上的值。如果您想在例如论文/论文中展示您的直方图,那么描述您使用的间隔类型当然会有所帮助。

要查看区间术语(请参阅Wikipedia以了解更多有关此内容的信息,或查看此StackOverflow 问题以获取 R 特定示例):

您给出的第一个示例将被描述为左闭右开区间,其中第一个 bin 为 $0 \leq x < 10$; 第二个 bin 是 $10 \leq x < 20$; 等等。所以 10 会进入第二个垃圾箱。0x<10; second bin is 10x<20; etc. So 10 would go in the second bin.

第二个例子是右闭左开区间,其中第一个 bin 是 $0 < x \leq 10$;第二个 bin 是 $10 < x \leq 20$; 等等。这里有 10 个进入第一个垃圾箱。0<x10; second bin is 10<x20; etc. And here 10 would go in the first bin.

默认情况下,R绘制具有右闭左开区间的直方图(请参阅right=TRUE此函数的选项);SAS默认为左闭右开(参见rtinclude该页上的选项)。我认为 Stata 也有左闭右开区间。

我更喜欢左闭右开区间,因为我发现这些直方图更易于阅读/解释。但是对于数据探索,我通常只使用我的包中的默认值(现在,R)。

发布后快速编辑:我将根据您的标记点添加,标准做法是仅标记 x 轴(0、10、20 等)中的边界/中断,而不是两个间隔结束( 0-9, 10-19 等),后者的缺点是它更杂乱,而且 9.5 或 9.9999(等等)会发生什么情况不明确。

在这里聚会很晚,但我认为有一个约定。约定似乎是下(左)界包含在一个类中。[1-3]

具体回答您的示例问题 - 20 的值应该进入 20-30 箱。

然而,正如 James 已经观察到的那样 - 并不总是遵守约定(特别是 Excel 数据分析直方图工具,它通过包含上限而不是下限而与之相反)。我还发现参考文献将(左或右包含)描述为约定 [4],并且至少有一个参考文献指出您正在使用哪个 [5] 暗示任何一个都是可以接受的(只要观众知道您用过的)。

注意:我专门寻找约定正是因为我试图确定当我发现这个问题时修改 Excel 直方图以匹配约定的重要性。我确实通过谷歌搜索直方图约定找到了很多其他链接。

参考:

  1. 分析数据和制定决策,商业统计。朱迪思·斯库斯,皮尔逊,2013 年。
  2. http://www.oswego.edu/~srp/stats/hist_con.htm
  3. http://www.math.ntua.gr/~fouskakis/SS/graphical%20summaries.pdf
  4. http://www.stat.berkeley.edu/~stark/SticiGui/Text/gloss.htm#e
  5. http://sites.stat.psu.edu/~ajw13/stat500/notes/lesson01/lesson01_03.html

虽然没有特别广泛的约定,但对我来说,遵循用于右连续 CDF 的约定是有意义的,因此通常使直方图包括其左边界但不包括其右边界,因此第 i 个区间为 $ [l_i,l_{i+1})$。至少这似乎更常见一些,但我没有确凿的证据来支持这种印象。i-th interval is [li,li+1). This at least