作为上下文:在处理非常大的数据集时,有时有人问我是否可以创建一个合成数据集,在其中我们“知道”预测变量和响应变量之间的关系,或预测变量之间的关系。
多年来,我似乎遇到过一次性的合成数据集,它们看起来像是以特别的方式制作的,或者更结构化的数据集似乎特别有利于研究人员提出的建模方法。
我相信我正在寻找创建合成数据集的标准方法。尽管自举重采样是创建合成数据集的一种常用方法,但它不满足我们先验地知道结构 的条件。此外,与他人交换引导样本本质上需要交换数据,而不是数据生成方法。
如果我们可以为数据拟合一个参数分布,或者找到一个足够接近的参数化模型,那么这就是我们可以生成合成数据集的一个例子。
还有哪些其他方法?我对高维数据、稀疏数据和时间序列数据特别感兴趣。对于高维数据,我会寻找可以生成感兴趣的结构(例如协方差结构、线性模型、树等)的方法。对于时间序列数据,来自 FFT、AR 模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,重现稀疏模式似乎很有用。
我相信这些只是表面上的——这些是启发式的,而不是正式的做法。是否有从业者应该知道的生成合成数据的参考资料或资源?
注 1:我意识到这个问题解决了关于如何生成特定时间序列模型等数据的文献。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,与已知结构一样,没有必要具有相似性,尽管相似性比不相似性更受青睐。与现实模拟相比,模型显示出前景的奇异合成数据集不太受欢迎。
注 2:合成数据的 Wikipedia 条目指出 Rubin 和 Fienberg 等名人已经解决了这个问题,尽管我没有找到关于最佳实践的参考资料。知道什么会通过应用统计年鉴(或 AOS)或这些或其他期刊的评论作品会通过集合会很有趣。用简单而异想天开的话来说,有人可能会问,“(可接受的)煮熟”和“太煮熟”之间的界限在哪里?
注 3:虽然它不影响问题,但使用场景是对各种大型高维数据集进行建模,其中研究议程是学习(通过人和机器;-))数据的结构。与单变量、双变量和其他低维场景不同,结构不容易推断。当我们朝着更好地理解结构迈进时,能够生成具有相似属性的数据集是很有意义的,以便了解建模方法如何与数据交互(例如检查参数稳定性)。尽管如此,关于低维合成数据的旧指南可以作为一个起点,可以扩展或适用于高维数据集。