何时使用等频直方图

机器算法验证 直方图 经验法则
2022-03-24 23:59:04

...而不是流行的等宽直方图。

附加问题:计算等频直方图的箱数的良好/稳健的经验法则是什么(如等宽的Freedmann-Diaconis-Rule)。

2个回答

这不是一个正确或完整的答案,而是我个人经验的两个观察:

  • 等频直方图将隐藏异常值(我在长而低的 bin 中看到它们)。

  • 等频直方图中各个 bin 的高度似乎比等宽直方图中更稳定。

我主要使用等频直方图进行探索性分析。与等宽直方图相比,它们让我对分布的形状有更好的直观感觉。

我现在正在尝试将它们用于一个应用程序,在该应用程序中,我使用数据直方图的函数作为两个非常偏斜分布的距离度量。等宽直方图将几乎所有样本都放在一个 bin 中,而具有相同 bin 数量的等频直方图将在该区域中有许多窄 bin。直观地说,如果我们将 bin 的高度视为一个变量,等频直方图将更好地在变量之间传播可用的分布信息。

等深度直方图是量化问题(将连续值映射到离散值)的解决方案。

为了找到最佳数量的箱,我认为这实际上取决于您要对直方图做什么。一般来说,我认为最好确保您选择的错误低于某个阈值(例如,平方误差之和 < THRESH)并以这种方式对值进行分类。

或者,可以将 bin 的数量作为参数传入(如果您担心直方图的空间消耗)。