分两个阶段构建模型

数据挖掘 机器学习模型
2022-02-16 01:06:29

这个问题是关于与预测性维护相关的用例。构建的最终模型(基于下面提到的步骤)用于预测特定类型设备的特定组件的故障。在机器学习上下文中,它是正在构建深度学习模型的回归用例。

模型构建过程包括两个阶段:

  1. 最初基于来自多个设备的数据(本质上是时间的),已经构建了一个模型。该模型已使用来自同一组设备的数据(预期)进行了交叉验证。
  2. 现在基于 #1 中确定的模型类型和超参数,正在为单个设备构建模型(使用来自各个设备的数据。此阶段数据的时间频率与 #1 中使用的数据的频率不同)。这些模型(用于单个设备)将在生产中部署(即每个设备一个模型)。#1 构建的模型不会用于生产。

两个阶段的过程是一种有效的模型构建方法吗?

据我了解,可以一次性使用来自所有设备(具有匹配频率)的数据构建单个模型,而不是两个阶段的过程和大量的单个模型。设备有可能基于不同的特性而彼此不同。但是这些特征可以在构建单个模型时用作特征。

基于领域知识,我或多或少相信一个模型可以为多个设备提供服务。但是,我的问题更多是关于两阶段方法的有效性:

  1. 在第一阶段确定模型类型和超参数。
  2. 根据第一阶段确定的模型类型和超参数,使用来自单个设备的数据构建单个模型。
1个回答

这是一个坏主意。您从第一个模型获得的交叉验证分数仅对该模型有效。如果您训练一个新模型,则无法保证它具有相似的性能,您必须测试每个模型。

仅当您可以保证第二个模型的数据与第一个模型的数据非常相似时,这才有效。你必须非常确定这一点。