橙色 3 - 使用 impute 小部件时对我所有数据的相同预测

数据挖掘 回归 随机森林 线性回归 预言
2022-02-18 13:40:04

当我使用线性或随机森林回归从数据中进行训练时,我可以使用测试数据进行预测。当我在管道中引入“估算”数据小部件以填充训练数据中的缺失值时,我遇到了问题。即使数据表是正确的,我的预测对于所有行都是一样的。我试图将 impute 小部件换成预处理器,我也有同样的行为。下面是我的图表:

这可以正常工作:

添加一个 impute 小部件,我的所有预测都变成相同的值:

1个回答

估算时,必须记录数据的某些特征。例如,当您通过平均值参数估算缺失数据时μ, 你必须记录μ从训练数据中提取,以便能够在测试数据上重新应用完全相同的转换。

因此,您只需要将训练数据连接到Impute小部件,而当两个域匹配时(在Predictions中) ,测试数据将使用相同的参数进行估算。

如果您将测试数据连接到其自己的Impute小部件,它会使用自己的测试数据特定参数进行估算,正如您所发现的那样,这是不正确的。

另请参阅:scikit_learn 模型中 fit 和 fit_transform 之间的区别?