基于小样本(使用Python)创建模拟数值数据的方法?

数据挖掘 Python
2022-01-24 14:31:54

对于实习,我被要求模拟虚拟设备(例如冰箱、冰柜)的耗电量。

该公司目前拥有来自几种不同设备的大量记录数据。数据显示出强烈的模式。它只有两个变量——消耗的时间和(W)。我需要模拟大量数据来训练算法。在 Python 中执行此操作的最佳方法是什么?我见过一些具有这种功能的模块,但它们似乎不适合我的数据格式。

2个回答

您可以使用 LSTM 解码器研究 GAN。但是,如果没有任何额外的先验信息,它不会大大改善您的下游任务,因为您没有向它提供更多信息,这意味着它必须产生更多数据的幻觉。

另一种方法是考虑生成过程。例如冰箱,我想对前一天的时间没有太多依赖。也许如果效率较低(通过查看平均值)。您可以尝试将不同设备的片段混合并匹配它们以模拟新样本。在这里,您通过假设某种独立性来引入先验偏见。

你可以在里面找到你需要的

numpy.random

例如,使用普通数据生成 100x100 矩阵:

data = numpy.random.normal(mean, sigma, shape=(100, 100))

看这里

[编辑]:如果您想要更高级的方式来生成类似于现有数据集的数据,您可以研究 GAN。