将模型用于不同的数据集

数据挖掘 数据挖掘 大数据 预测建模
2022-02-18 15:18:11

我已经使用 Knime 中的线性回归生成了一个模型,用于使用样本数据预测未来输入趋势。我想使用不同的数据集验证模型。

假设我用于创建模型的数据集来自设备 A 的传感器。预测对于来自设备 A 的数据集是准确的。假设我将模型保存为名为 A 的 PMML 文件。我可以使用相同的 PMML 文件 A预测设备 B 的值(B 的值不可比较)。如果不是,我应该为我拥有的所有数据集创建一个不同的模型吗?

问题

如何组合所有生成的模型,以便预测任何给定的数据集?是否可以?

1个回答

我认为您的回答是“B 的值不可比”。预测学习基于一个基本假设,即预测数据与学习数据具有相同的联合分布。这是这些过程之间的联系。

现在,如果你想以一种有意义的方式处理它,你必须以某种方式知道源类型。在您的示例中,设备类型。一种方法是将设备类型作为数据集中的不同列引入,以便模型有机会区分源类型。显然,您必须拥有所有设备类型的训练数据。假设您有 2 种设备类型,A 和 B。您的训练数据应该有一些信号列以及 A 和 B 类型的因子列。此外,您还必须有足够的 A 和 B 类型数据实例。