数据挖掘 - 使用新样本进行增量学习 - 吾爱随笔录

使用新样本进行增量学习

数据挖掘机器学习

2022-02-14 15:10:34

我有一个非常大的带有时间戳数据的数据集。到目前为止，我加载了整个数据集以便使用 python 训练一些模型（statsmodels.api、statsmodels.formula.api、keras.models.Sequential）。现在，我想用所有历史数据训练模型一次，然后只用新数据更新模型（每天我都有新样本）。这些python库是否可能以及如何使用？谢谢！

2个回答

这就是机器学习模型的用途......（根据他们输入的数据预测他们认为近期会发生什么......）

一个简单的答案是这样

前几天的数据是最重要的，您需要衡量并监视您的模型。

与任何增量学习一样，您可以学习更多最近的东西，但也比不学习新东西更能适应过去。因此，这就是为什么要对使用增量学习的模型（尤其是在生产系统上）进行监控的原因。

假设其他事情随着时间的推移保持相似......（相同的预处理，相同的缩放等......）

但是假设你每天都有大量的数据，那么几乎在月底，模型可以完全训练最后几个月的数据，否则需要保留检查点

“一次用所有历史数据训练模型，然后用新数据更新模型（每天我都有新样本”

似乎您指的是增量 ML 算法——超越了“实验数据科学”的思维方式。

有关算法设计和使用的示例，请参见https://scikit-learn.org/stable/auto_examples/decomposition/plot_incremental_pca.html上的“增量主成分分析 (IPCA)” 。

如果这有帮助，那么您可能需要研究#ConceptDrift.

一些资源

“概念漂移：在流式机器学习应用程序中监控模型质量” https://www.lightbend.com/blog/concept-drift-monitoring-model-quality-in-streaming-ml-applications
“增量主成分分析精确实现和连续性修正” https://arxiv.org/abs/1901.07922

其它你可能感兴趣的问题

上一篇RNN：为什么是 Wx + Uh 而不是 W[x,h] 下一篇根据唯一列值从现有数据框创建新数据框