如何每天在更新的数据集上训练 tensorflow 聊天应用程序

数据挖掘 机器学习 张量流
2022-03-15 17:18:13

我在康奈尔电影数据集上创建了聊天机器人,它运行良好。我已经将聊天机器人应用程序训练到全局步骤 330000。我正在使用 tensorflow 库。我正在使用||来源|| 聊天机器人。我也收到了很好的输出。然后我通过修改原始数据集创建了这个新的数据集文件,我希望用更新的文件训练聊天机器人应用程序。现在我应该删除以前保存的检查点和保存的数据并从零开始训练,还是应该从 330000 开始训练而不担心数据集的变化。我希望每天修改数据库并在修改后的数据库上进行培训。如果您对我有任何建议,请告诉我,因为我被困在这个问题上。如果您能帮助我解决这个问题,我将不胜感激。

1个回答

您的数据分布在较短的时间内不会发生太大变化,从头开始重新训练似乎是一种浪费。只需将新数据添加到您的数据集中,并对所有数据执行一个或多个 epoch,而不仅仅是新数据。它可以稍微调整权重以适应分布的变化,这正是您想要的。确保您不会过度依赖提前停止作为正则化方法来防止过度拟合,因为您会像这样不断地训练,使用其他一些正则化器。我建议定期从头开始重新训练,但这不必非常频繁地发生,可能每两个月一次。