使用机器学习训练模型后会发生什么?训练数据会发生什么变化?
让我们假设它在 99.99999% 的时间内预测正确,并且您对此感到满意并想与世界分享它。如果你放入 10GB 的训练数据,你与世界共享的文件是 10GB 吗?如果都是在 AWS 上训练的,人们是否只能通过 API 连接到 AWS 才能使用您的服务?
所有旧的训练数据会发生什么?模型是否仍然需要所有这些来做出新的预测?
使用机器学习训练模型后会发生什么?训练数据会发生什么变化?
让我们假设它在 99.99999% 的时间内预测正确,并且您对此感到满意并想与世界分享它。如果你放入 10GB 的训练数据,你与世界共享的文件是 10GB 吗?如果都是在 AWS 上训练的,人们是否只能通过 API 连接到 AWS 才能使用您的服务?
所有旧的训练数据会发生什么?模型是否仍然需要所有这些来做出新的预测?
在许多情况下,生产就绪模型拥有进行预测所需的一切,而无需保留训练数据。例如:线性模型可能只需要系数,决策树只需要规则/拆分,神经网络需要架构和权重。不需要训练数据,因为进行预测所需的所有信息都包含在模型中。
但是,一些算法会保留部分或全部训练数据。支持向量机存储离分离超平面最近的点(“支持向量”) ,因此训练数据的一部分将与模型一起存储。此外,每次进行预测时, k-最近邻都必须评估数据集中的所有点,因此模型包含整个训练集。
话虽如此,在可能的情况下,训练数据将被保留。如果收到额外的数据,可以在扩大的数据集上训练一个新模型。如果决定需要采用不同的方法,或者担心概念漂移,那么最好保留原始数据。在许多情况下,训练数据可能包含个人数据或使公司具有竞争优势,因此模型和数据应该保持分离。
如果您想了解它是如何工作的,这篇 Keras 博客文章有一些信息(注意:一旦模型被重新实例化,就不需要训练数据来进行预测)。