...而不是流行的等宽直方图。
附加问题:计算等频直方图的箱数的良好/稳健的经验法则是什么(如等宽的Freedmann-Diaconis-Rule)。
...而不是流行的等宽直方图。
附加问题:计算等频直方图的箱数的良好/稳健的经验法则是什么(如等宽的Freedmann-Diaconis-Rule)。
这不是一个正确或完整的答案,而是我个人经验的两个观察:
等频直方图将隐藏异常值(我在长而低的 bin 中看到它们)。
等频直方图中各个 bin 的高度似乎比等宽直方图中更稳定。
我主要使用等频直方图进行探索性分析。与等宽直方图相比,它们让我对分布的形状有更好的直观感觉。
我现在正在尝试将它们用于一个应用程序,在该应用程序中,我使用数据直方图的函数作为两个非常偏斜分布的距离度量。等宽直方图将几乎所有样本都放在一个 bin 中,而具有相同 bin 数量的等频直方图将在该区域中有许多窄 bin。直观地说,如果我们将 bin 的高度视为一个变量,等频直方图将更好地在变量之间传播可用的分布信息。
等深度直方图是量化问题(将连续值映射到离散值)的解决方案。
为了找到最佳数量的箱,我认为这实际上取决于您要对直方图做什么。一般来说,我认为最好确保您选择的错误低于某个阈值(例如,平方误差之和 < THRESH)并以这种方式对值进行分类。
或者,可以将 bin 的数量作为参数传入(如果您担心直方图的空间消耗)。