监督学习中最常见的场景是拥有具有一组特征的数据点,然后训练模型以进行分类预测。
通常,为了使预测对新数据点有意义,这些新数据点需要具有相同的特征并来自相同的分布。
我的问题是:在哪些情况下,您要预测的数据点不一定具有与您训练模型的数据点相同的一组特征?
监督学习中最常见的场景是拥有具有一组特征的数据点,然后训练模型以进行分类预测。
通常,为了使预测对新数据点有意义,这些新数据点需要具有相同的特征并来自相同的分布。
我的问题是:在哪些情况下,您要预测的数据点不一定具有与您训练模型的数据点相同的一组特征?
如果您指的是用于预测的全新功能集:这将无济于事。您的模型在训练特征空间上“学习”了一些东西,并且您希望将学习应用于同一特征空间中的新数据点。如果预测的特征空间是全新的,那么学习将毫无用处!
如果您的意思是一些新的功能集:这通常发生在文本应用程序中,其中新标记可能会出现在数据中,而这些新标记可能在训练数据中从未见过。通常由零向量或随机向量等策略处理。
相同的特征但不同的分布:这在实践中可能会发生,但模型性能会下降。