我正在研究一个回归模型来预测具有四个特征的目标值,所有这些特征都是分类的。
类别不是固定的,例如一个是客户标识符。我的模型如何根据它已经训练过的剩余特征来处理它以前从未见过的客户标识符的预测?
我已经考虑为每个特征建立一个模型,该模型可以根据其他三个剩余特征预测哪个类别标签最相似(或者可以使用多个类似的类别标签并取这些标签的平均目标值)。
我对这种方法的唯一担心是它的可扩展性不高,我想用越来越多的分类特征来扩展模型。
是否有某种技术可以为每个特征创建一个“未知”标签,以便模型可以处理这种情况,或者预测是否可能完全不准确?