我有一个回归模型,我想根据从最终用户那里获得的值进行预测。
在我的数据集中,我有一个分类变量,我对它进行了一次region热编码,它生成了 53 个新列(54 个区域)。
现在我的数据形状为 1000x72。然后我分成训练集和测试集,我的模型运行良好。
但我对我的模型如何预测新值感到困惑。由于我只会从最终用户那里获得一个区域值,因此我的模型将对单个值进行一次热编码,并且它将不再适合它已经训练过的形状,因为它将具有 1x18 的形状。我真的很困惑,因为我该如何以这种方式将它放入模型中......我是否只制作 53 个其他列并在每个列中放置一个虚拟 0?
抱歉,如果这是一个微不足道的问题,我对此非常陌生,任何帮助将不胜感激!
region_ohe = OneHotEncoder(categories = "auto", handle_unknown = "ignore")
X_encoded = region_ohe.fit_transform(df['region'].values.reshape(-1,1)).toarray()