我对新生成的样本感兴趣,以逼近一些未知分布 X,其中每个新样本都是一个实值向量。
其目的是能够从这个近似分布中创建一个新的(任意大的)新样本流,该分布将以与原始采样数据相同或尽可能接近的方式分布。
一些额外的点:
- 我将有大量来自 X 的样本,例如数百万,并且可能太大而无法放入内存。
- 概率分布 X 可以是离散的或连续的。它很可能是多模式的。非常极端的值是不可能的。
- 如果需要,我可以规范化数据或对其进行缩放以适应某些范围。
- 每个样本的维度相当大(比如 1000)
- 可以假设样本是独立的
- 可以假设样本几乎是相同分布的,尽管它们代表一个时间序列,因此基础分布可能变化非常缓慢。这种变化不太可能大到足以
- 理想情况下,我希望算法在线,即模型分布可以随着新的真实样本可用而逐步更新。
“学习”如何生成具有尽可能接近 X 的概率分布的新样本的最佳算法是什么?