持续评估和改进模型性能的策略

数据挖掘 优化 监督学习 预报
2022-03-07 12:06:36

我正在构建一个有监督的机器学习模型来生成预测。

所以我会有这样的历史数据:

SKU, Month, .... other features, Actual Volume

我可以使用模型来生成预测,使用实际数量作为标签。

当然,预测量和实际量之间会有差异

在不产生任何数据泄漏的情况下,利用这些数据来整合这些信息来训练模型以最小化方差的正确方法是什么?

数据应该通过移动平均等方式反馈给数据并重新训练,还是有其他更好的策略来正确评估模型的性能并从中学习?

数据将是具有各种特征的时间序列数据,例如汇率、销售人员等。

1个回答

我很高兴看到这个问题,因为这个网站收到的关于实际处于生产状态的模型的问题很少。

如果我处于你的位置,我会开始考虑如何在前进的基础上使用该算法并开始记录所有内容。你的算法做出的每一个新预测也是一个新的训练数据点。

因此,您需要花时间创建反馈循环,并 (1) 获取新数据点,将它们投入训练,(2) 重新训练您的算法,(3) 部署新版本,然后 (4) 使用修改后的算法. 您在项目的整个生命周期中不断重复整个过程。从技术方面来说,这是一个强化学习的练习,因为你的算法不会从零知识开始。此外,我描述的大多数步骤很可能需要您编写新代码,其中大部分与流程和工作流相关,不一定是数据科学或算法。

最后,作为一个仅供参考,据说有多种算法可以连续执行这些类型的循环,逐分钟(或更快!)更新,始终提供最新的答案可用的数据点。