机器算法验证 - 制作直方图时四舍五入 - 吾爱随笔录

制作直方图时四舍五入

机器算法验证聚类数据可视化直方图

2022-03-21 00:15:28

假设在制作直方图时，在 bin 边界处遇到一个数据。是否有关于如何舍入它的约定？例如，假设我的数据是整数百分比，从 0% 到 100%。我想制作一个边界为 10%、20% 等的直方图。当然，我可以通过标记类别 0-9、10-19 等来标记直方图以避免该问题。但假设我不想那样给他们贴标签。我可以通过简单地标记 10、20、30 等的 bin 边界来节省 x 轴上的空间。但是如果我在 20 处遇到一个基准，是否有关于它是否进入 10-20 bin 或20-30 箱？

3个回答

我不相信有任何约定（请参阅下面的统计包摘要。）

为了考虑一组数据的分布（例如，使用直方图检查线性回归中残差的粗略正态性），这个决定有点武断（但可能会改变图形的形状，具体取决于有多少观察值落在断点上和数据集的大小）。

默认情况下，不同的计算机包以不同的方式处理断点上的值。如果您想在例如论文/论文中展示您的直方图，那么描述您使用的间隔类型当然会有所帮助。

要查看区间术语（请参阅Wikipedia以了解更多有关此内容的信息，或查看此StackOverflow 问题以获取 R 特定示例）：

您给出的第一个示例将被描述为左闭右开区间，其中第一个 bin 为 $0 \leq x < 10$; 第二个 bin 是 $10 \leq x < 20$; 等等。所以 10 会进入第二个垃圾箱。 $0 \leq x < 10$ ; second bin is $10 \leq x < 20$ ; etc. So 10 would go in the second bin.

第二个例子是右闭左开区间，其中第一个 bin 是 $0 < x \leq 10$；第二个 bin 是 $10 < x \leq 20$; 等等。这里有 10 个进入第一个垃圾箱。 $0 < x \leq 10$ ; second bin is $10 < x \leq 20$ ; etc. And here 10 would go in the first bin.

默认情况下，R绘制具有右闭左开区间的直方图（请参阅right=TRUE此函数的选项）；SAS默认为左闭右开（参见rtinclude该页上的选项）。我认为 Stata 也有左闭右开区间。

我更喜欢左闭右开区间，因为我发现这些直方图更易于阅读/解释。但是对于数据探索，我通常只使用我的包中的默认值（现在，R）。

发布后快速编辑：我将根据您的标记点添加，标准做法是仅标记 x 轴（0、10、20 等）中的边界/中断，而不是两个间隔结束（ 0-9, 10-19 等），后者的缺点是它更杂乱，而且 9.5 或 9.9999（等等）会发生什么情况不明确。

在这里聚会很晚，但我认为有一个约定。约定似乎是下（左）界包含在一个类中。[1-3]

具体回答您的示例问题 - 20 的值应该进入 20-30 箱。

然而，正如 James 已经观察到的那样 - 并不总是遵守约定（特别是 Excel 数据分析直方图工具，它通过包含上限而不是下限而与之相反）。我还发现参考文献将（左或右包含）描述为约定 [4]，并且至少有一个参考文献指出您正在使用哪个 [5] 暗示任何一个都是可以接受的（只要观众知道您用过的）。

注意：我专门寻找约定正是因为我试图确定当我发现这个问题时修改 Excel 直方图以匹配约定的重要性。我确实通过谷歌搜索直方图约定找到了很多其他链接。

参考：

分析数据和制定决策，商业统计。朱迪思·斯库斯，皮尔逊，2013 年。
http://www.oswego.edu/~srp/stats/hist_con.htm
http://www.math.ntua.gr/~fouskakis/SS/graphical%20summaries.pdf
http://www.stat.berkeley.edu/~stark/SticiGui/Text/gloss.htm#e
http://sites.stat.psu.edu/~ajw13/stat500/notes/lesson01/lesson01_03.html

虽然没有特别广泛的约定，但对我来说，遵循用于右连续 CDF 的约定是有意义的，因此通常使直方图包括其左边界但不包括其右边界，因此第 i 个区间为 $ [l_i,l_{i+1})$。至少这似乎更常见一些，但我没有确凿的证据来支持这种印象。 $i$ -th interval is $[l_i,l_{i+1})$ . This at least

其它你可能感兴趣的问题

上一篇是否有更多信息的 PCA 图的示例？下一篇决策树作为逻辑回归的变量选择