直方图中的“bin size”可以被认为是一个规律性约束吗?

机器算法验证 机器学习 分布 正则化 直方图 分箱
2022-03-27 00:33:20

当将直方图视为对密度函数的估计时,将 bin 大小视为约束该函数局部结构的参数是否合理?

另外,有没有更好的方法来表达这种推理?

3个回答

是的,这是一种合理的思考方式(假设直方图经过标准化以获得正确的 pdf)。Bin 宽度限制了密度估计的平滑度(松散地说,因为直方图是不连续的函数)。它控制可以对更精细结构建模的程度,以及数据中随机波动影响估计的程度。它与核密度估计中的核宽度和控制决策树中叶大小的超参数的作用相似。

更具体地说,bin width 是一个控制偏差方差权衡的超参数。减少 bin 宽度会减少偏差,因为它允许更精细的表示——具有更窄 bin 的直方图形成更丰富的函数类别,可以更好地逼近真实/基础分布。但是,它增加了方差,因为可用于估计每个 bin 高度的数据点较少——具有较窄 bin 的直方图对数据中的随机波动更敏感,并且在从相同基础分布中提取的数据集上变化更大。一个好的 bin 宽度可以平衡这些相反的影响,以提供更匹配底层分布的密度估计。

更多详情请参见:

斯科特 (1979)关于最优和基于数据的直方图。

沙里子(2009)估计分布和密度 [课程笔记]

核密度估计器通常被合理化为直方图的“连续”版本。许多关于非参数核估计的书籍也讨论了直方图。参见,例如,Jeffrey S. Racine 中的第 2 章“非参数计量经济学:入门”。Foundations and Trends® in Econometrics 3.1 (2008): 1-88.

这是合理的,因为您通过将样本放入箱中所做的是近似数据。根据我的经验,根据您的目标和可用数据,这些垃圾箱可能会发生巨大变化,并对进一步处理数据的方式产生重大影响。在某些情况下,您可能不需要很多 bin,或者您可能缺少数据,因此您仍然可以看到一般曲线。另一方面,如果近似值太强,您可能会错过一些细节,例如局部最小值和最大值或结构。例如,您可以采用以下功能: 在此处输入图像描述

并比较 100 和 8 个 bin 的 hist在此处输入图像描述 在此处输入图像描述

结构复杂性之间存在明显差异。如果我们在谈论密度函数,当然你应该选择第二个选项以获得更平滑的曲线,没有像第一张图像那样的极端值
通常我更喜欢使用Freedman–Diaconis 规则作为经验法则来选择默认值箱数,然后根据任务对其进行调整。