我有一个非常庞大的数据集,我想知道如何设置实验以使用这些数据来训练模型的正确方法。
我知道我可以使用数据缩减来删除一些变量。尽管数据缩减实际上可以减少数据量,但正如我所见,这种技术旨在提高模型训练的有效性,而不是处理数据量带来的实际问题。
我的一个想法是先将整个数据打乱,然后将数据分成“小”块。一旦有了,比如说'个块,我可以使用每个块训练相同的模型,如下所示:
initialize(M);
for(n in N) {
D = load_chunck(n);
M = train(M, D);
}
尽管这种方法可以有效地将实验与手头的计算资源相匹配,但我担心以这种方式训练模型会影响模型的质量,因为它会包含来自后者块的偏差。此外,N 现在是要设置的新超参数。
我可以看到的另一种选择是使用统计抽样:
D = retrieve_sampling(sampling_size);
if (D is good)
M = train(D);
我想知道我是否还有其他方法可以做到这一点,然后是我在这里引用的那些。