如何对统计上统一的数据集进行采样

数据挖掘 数据集
2021-10-11 04:30:16

我有一个分布如下的数据集:

在此处输入图像描述

我需要从集合中随机抽取样本数据,以便分布更加均匀。像这样(取绿色区域中的数据):

在此处输入图像描述

我知道如何通过获取数据,放入单独的“桶”(将数据分配到 X 个桶中,从每个桶中提取 Y 个样本)来做到这一点,但我想知道是否有更简单的方法。

PS 结果不一定是 100% 准确 - 一个好的近似值就足够了。

1个回答

有多种采样选项:

  1. 直接从完美模拟经验分布的数据中采样。
  2. 拟合核密度估计 (kde )。来自估计的 kde 函数的样本。
  3. 创建数据的直方图,也就是 bin 数据。然后将每个直方图视为概率质量函数 (pmf)从与它们的频率成比例的箱中取样。

您可以创建数据或分布的变体:

  1. 对数据应用转换。例如,对数转换会将偏态分布转换为更正态。
  2. 直方图值可以更改为任何形状。

然后从更改的数据或分布中采样。

最极端的选择是定义跨数据域的均匀分布并从该分布中采样。绿色框是均匀分布