是否有任何好的通用技术可以对任意数据进行分箱/直方图处理?

数据挖掘 数据挖掘 可视化
2022-02-28 09:51:57

假设我们想要对某个数量的有限测量集进行直方图。直接计算我们样本的常用统计量,例如均值和方差。假设我们可以通过识别异常值并将它们移动到下溢和溢出箱中来清理我们的数据,从而为绘图范围定义或多或少的最佳最小值和最大值。但是如何决定垃圾箱的数量和大小呢?我想知道是否有方法可以为具有固定和可变箱大小的情况找到最佳分箱。

1个回答

我不知道这是否是您想要的,但这是一种计算垃圾箱数量的方法。

  1. 计算数据集中的数据点数。
  2. 取数据点数量的平方根并四舍五入以确定所需的初始 bin 数量:InitialNumberOfBins=NumberOfDataPoints.
  3. 划分规格公差MaxMin value按初始箱数:FinalNumberOfBins=(MaxMin value)/InitialNumberOfBins.