如果尚未观察到类别,如何在回归模型中进行预测?

数据挖掘 机器学习 回归 分类数据
2022-03-11 08:01:29

我正在研究一个回归模型来预测具有四个特征的目标值,所有这些特征都是分类的。

类别不是固定的,例如一个是客户标识符。我的模型如何根据它已经训练过的剩余特征来处理它以前从未见过的客户标识符的预测?

我已经考虑为每个特征建立一个模型,该模型可以根据其他三个剩余特征预测哪个类别标签最相似(或者可以使用多个类似的类别标签并取这些标签的平均目标值)。

我对这种方法的唯一担心是它的可扩展性不高,我想用越来越多的分类特征来扩展模型。

是否有某种技术可以为每个特征创建一个“未知”标签,以便模型可以处理这种情况,或者预测是否可能完全不准确?

1个回答

从技术上讲,你不能。这是回归模型的局限性之一;它们实际上只对他们以前见过的值/范围有效。您对分类值的使用使其更加复杂。但即使使用连续变量,也不建议对这些“未知”值使用回归模型。