我有一个时间序列问题,我使用的数据集相当大。大约 100GB。对于本地开发,我试图将其分成一个大约 50MB 的非常小的批次,只是为了确保单元测试和一些非常简化的“分析”测试通过,我的代码不是一团糟,我的模型实际上是在尝试做一些事情对这些数据有意义。我知道我无法创建一个可以完全模仿原始数据的非常好的“具有代表性”的小子集,但我想确保在对这个庞大的数据集进行训练之前,我发现我的模型的许多基本缺陷都与这些数据有关。也许为不同的测试范围设置多个不同大小的批次也是一种选择,我没有任何偏好。
创建这个子集的最佳策略是什么?我认为对于不连续的数据,与我的不同,数据点的随机下采样可能是一件好事,但我不知道在时间序列数据中什么是好的做法。我应该选择一小段时间作为新数据集吗?随意性呢?如何根据类别不平衡进行抽样?这些是我首先想到的问题。但请随意扩展更多问题。
编辑:我正在研究的是这个数据集。数据集非常大,我想有效地从中选择一个子集。任务是检测癫痫发作。我认为,一种选择是科目的数量。但我对您可能提出的所有选择持开放态度!