使用新样本进行增量学习

数据挖掘 机器学习
2022-02-14 15:10:34

我有一个非常大的带有时间戳数据的数据集。到目前为止,我加载了整个数据集以便使用 python 训练一些模型(statsmodels.api、statsmodels.formula.api、keras.models.Sequential)。现在,我想用所有历史数据训练模型一次,然后只用新数据更新模型(每天我都有新样本)。这些python库是否可能以及如何使用?谢谢!

2个回答

这就是机器学习模型的用途......(根据他们输入的数据预测他们认为近期会发生什么......)

一个简单的答案是这样

前几天的数据是最重要的,您需要衡量并监视您的模型。

与任何增量学习一样,您可以学习更多最近的东西,但也比不学习新东西更能适应过去。因此,这就是为什么要对使用增量学习的模型(尤其是在生产系统上)进行监控的原因。

假设其他事情随着时间的推移保持相似......(相同的预处理,相同的缩放等......)

但是假设你每天都有大量的数据,那么几乎在月底,模型可以完全训练最后几个月的数据,否则需要保留检查点

“一次用所有历史数据训练模型,然后用新数据更新模型(每天我都有新样本”

似乎您指的是增量 ML 算法——超越了“实验数据科学”的思维方式。

有关算法设计和使用的示例,请参见https://scikit-learn.org/stable/auto_examples/decomposition/plot_incremental_pca.html上的“增量主成分分析 (IPCA)” 。

如果这有帮助,那么您可能需要研究#ConceptDrift.

一些资源