如何对统计上统一的数据集进行采样
数据挖掘
数据集
2021-10-11 04:30:16
1个回答
有多种采样选项:
- 直接从完美模拟经验分布的数据中采样。
- 拟合核密度估计 (kde )。来自估计的 kde 函数的样本。
- 创建数据的直方图,也就是 bin 数据。然后将每个直方图视为概率质量函数 (pmf)。从与它们的频率成比例的箱中取样。
您可以创建数据或分布的变体:
- 对数据应用转换。例如,对数转换会将偏态分布转换为更正态。
- 直方图值可以更改为任何形状。
然后从更改的数据或分布中采样。
最极端的选择是定义跨数据域的均匀分布并从该分布中采样。绿色框是均匀分布。
其它你可能感兴趣的问题