我是 ML 新手,并且一直在在线阅读有关数据频繁更新时的训练瓶颈的信息。
假设我有一个基于 10M 记录数据集的模型。
现在,再过 2 个月,我可能会收到另外 100 万条记录,我们也希望将它们输入到我们的模型中。
同样,这种情况每 2 个月进行一次。我们希望在可用时使用最新数据更新/训练我们的模型
1) 但是例如,假设每次新数据更新需要 1 周的训练时间
2)关于如何最大限度地减少培训时间(我们每 2 个月培训一次?)的任何建议?
3) 我们应该从 100 万个数据点中选择一个有代表性的样本吗?这够好吗
4)我知道这都是关于权衡的,但我很想知道我是否遗漏了任何已知的方法来节省培训时间?我认为有代表性的样本可以减少样本量并帮助我们加快训练过程
你能分享你对此的建议吗?
