数据挖掘 - 如何使用令人生畏的庞大训练数据集训练模型 - 吾爱随笔录

我有一个非常庞大的数据集，我想知道如何设置实验以使用这些数据来训练模型的正确方法。

我知道我可以使用数据缩减来删除一些变量。尽管数据缩减实际上可以减少数据量，但正如我所见，这种技术旨在提高模型训练的有效性，而不是处理数据量带来的实际问题。

我的一个想法是先将整个数据打乱，然后将数据分成“小”块。一旦有了，比如说'个块，我可以使用每个块训练相同的模型，如下所示： $N$

initialize(M);
for(n in N) {
  D = load_chunck(n);
  M = train(M, D);
}

尽管这种方法可以有效地将实验与手头的计算资源相匹配，但我担心以这种方式训练模型会影响模型的质量，因为它会包含来自后者块的偏差。此外，N 现在是要设置的新超参数。

我可以看到的另一种选择是使用统计抽样：

D = retrieve_sampling(sampling_size);
if (D is good)
   M = train(D);

我想知道我是否还有其他方法可以做到这一点，然后是我在这里引用的那些。