我有一个非常大的带有时间戳数据的数据集。到目前为止,我加载了整个数据集以便使用 python 训练一些模型(statsmodels.api、statsmodels.formula.api、keras.models.Sequential)。现在,我想用所有历史数据训练模型一次,然后只用新数据更新模型(每天我都有新样本)。这些python库是否可能以及如何使用?谢谢!
使用新样本进行增量学习
数据挖掘
机器学习
2022-02-14 15:10:34
2个回答
这就是机器学习模型的用途......(根据他们输入的数据预测他们认为近期会发生什么......)
一个简单的答案是这样
前几天的数据是最重要的,您需要衡量并监视您的模型。
与任何增量学习一样,您可以学习更多最近的东西,但也比不学习新东西更能适应过去。因此,这就是为什么要对使用增量学习的模型(尤其是在生产系统上)进行监控的原因。
假设其他事情随着时间的推移保持相似......(相同的预处理,相同的缩放等......)
但是假设你每天都有大量的数据,那么几乎在月底,模型可以完全训练最后几个月的数据,否则需要保留检查点
“一次用所有历史数据训练模型,然后用新数据更新模型(每天我都有新样本”
似乎您指的是增量 ML 算法——超越了“实验数据科学”的思维方式。
有关算法设计和使用的示例,请参见https://scikit-learn.org/stable/auto_examples/decomposition/plot_incremental_pca.html上的“增量主成分分析 (IPCA)” 。
如果这有帮助,那么您可能需要研究#ConceptDrift
.
一些资源
- “概念漂移:在流式机器学习应用程序中监控模型质量” https://www.lightbend.com/blog/concept-drift-monitoring-model-quality-in-streaming-ml-applications
- “增量主成分分析精确实现和连续性修正” https://arxiv.org/abs/1901.07922
其它你可能感兴趣的问题