如何在直方图中描述一个 bin?

机器算法验证 术语 直方图
2022-04-04 01:46:19

文献中常见的指代直方图中的某个 bin 是什么?

例如,假设我有一个带有 4 个 bin 的直方图。第一个 bin 具有 1 到 2 之间的所有值,第二个 bin 具有 2 到 3 之间的所有值,依此类推。在我看来,将垃圾箱称为“1 到 2 之间的垃圾箱”似乎很奇怪——而且太长了。只写/说“bin 1”或“bin 35”是否可以接受,这意味着 bin 的值从 35 开始?在直方图中应该很明显,哪个 bin 表示 35,因为所有 bin 边界都已标记。

2个回答

这部分是统计术语的问题,部分是英语用法的问题。(显然,对于对这个问题感兴趣的任何人,除了英语以外的其他语言,有些观点可能无关紧要或需要更改。)

让我们首先关注测量数据。

为了完全清楚地向我描述你的垃圾箱,你必须以某种方式告诉我(1)它从哪里开始,(2)它有多宽,以及(3)在垃圾箱边界会发生什么。那是统计问题。有时(2)甚至(3)从上下文中是显而易见的,例如(2)通过查看图表可能是显而易见的。

在英语中,“between”最好与“and”配对,“from”与“to”配对,但这两种用法的一个问题是,它们会使边界处发生的事情变得模棱两可。因此,“在 2 和 3 之间”、“在 3 和 4 之间”等或“从 2 到 3”、“从 3 到 4”等,提出了如果数据正好是 3 会发生什么的问题。

为了完整起见,我将强调使用时的计量单位(公斤、米、美元/年等)应始终在显着位置至少提及一次。

虽然我专注于英语用法,但我会注意到诸如“在 2-3 之间”和“从 2-3”之类的用法虽然很常见,但被用法专家广泛反对,并被许多风格指南推荐为糟糕的风格,但您也会遇到这样的观点,即这种态度介于保守和反动之间。(在这个问题上,我与保守派一致。)也就是说,使用连字符或破折号代替第二个单词,即“and”或“to”,被认为是一种糟糕的风格。这个论点似乎是一种对称性,应该配对的词确实应该配对。

如果你告诉我一个 bin 用于值或用于你已经告诉了我我需要知道的一切。因此,如果您需要参考特定的垃圾箱,使用一点数学知识可能比模棱两可的措辞更简单、更好。来说,自然可以随意替换变量的单词描述。或者在其他地方使用那个词描述,并使用一些基于示例的解释。2x<3[2,3)x

bin 宽度为 1 且包含下限,因此(例如)2-3 的 bin 包括报告为 2.0 的值。

使用离散(例如)计数数据,事情通常自然更简单。仍然最好报告垃圾箱是(例如)0-3、4-7、8-11 等,而不是0-4、4-8、8-12 等。(您可能会惊讶于如此普遍后一种做法是。)

但是,很大程度上取决于您的读者群。也许您的读者对不等式的表示法不满意,在这种情况下,您仍然难以解释在 bin 边界处发生的情况,尽管只有上下文和受众可以确定这有多重要。我发现你不能假定你熟悉符号的使用,除非你是在与具有良好数学背景的人交谈。如果不经常使用,即使是统计用户也会忘记很多他们曾经知道的学校或大学数学。[,)

我不会假设所有的箱子都在直方图上标有它们的数字限制。如果有几十个甚至几百个垃圾箱,通常会很忙,不切实际或两者兼而有之。相反,很难想象讨论单个垃圾箱,除非它是可识别的。

编辑:感谢其他贡献者提醒我间隔符号。

我同意尼克的帖子 - 这是描述垃圾箱包含什么的重要建议。

但是,对于这个答案,我假设我们处于垃圾箱内容已经很清楚的环境中。

如果我只是指一个特定的 bin **,我很可能会通过它的序数位置来指代一个 bin(第一个 bin第二个 bin,...)。如果没有指定开始计数的结尾(如“从右数第三个 bin ”中),那么这种计数可能会遵循从左数计数的文化惯例(至少在写 left-to 的人中似乎是传统的) -正确的)。

** 并且没有很多垃圾箱(可能不超过十个垃圾箱)。

例如,我可能会说“第三个 bin 的观测值比通常的统一模型预测的要多得多”。

如果有很多垃圾箱,我可能会通过它的限制之一(“从 25 开始的垃圾箱”)或靠近中间某处的圆形数字(“包含 40 的垃圾箱”)或一些明显的特征来引用它( “模式右侧的 bin ”)。

但是,如果有任何歧义的可能性,最好回退到完整的描述(例如“区间[25,27)上的 bin ”)。