现实生活场景中监督学习的训练与测试数据集

数据挖掘 数据 特征工程 特征缩放
2022-02-25 16:37:34

在教程中,我注意到只有类似的数据用于模型训练和预测。

我想知道如何找不到与最终用例(测试数据)相似的训练数据?

如果我正在构建一个房屋租赁推荐系统,但我能找到的最接近的训练数据是电影,会发生什么。而且它的功能比我在家庭场景中的功能要少。

像这样的场景有多常见,它们通常是如何处理的?

2个回答

许多机器学习算法的数据的一个重要假设是来自训练集和测试集的数据是独立同分布的(独立同分布)并且来自相同的概率分布。更多解释在这里也就是说,你不能训练一个模型来推荐电影并用于房屋租赁。或者我不知道。

但是,如果您有大量的电影推荐数据和少量的房屋租赁推荐数据,则可以使用称为迁移学习的技术来训练房屋租赁推荐的模型。这个想法很简单:如果两个任务相似,我们应该能够使用我们从一个任务中学到的东西来更快更好地学习另一个任务。

以下是一般过程(对于神经网络):

  • 使用电影数据,训练电影推荐模型
  • 使用房屋租赁数据微调此推荐系统:冻结大部分电影推荐器,使用房屋租赁数据重新训练最后几层。

这只是一个关于如何完成的方向,有相当多的相关文献供您了解更多。我会说这是一个并不少见的情况。

您应该具有用于​​训练的相同数量的特征。不能在特征数量较少的用例中使用经过训练的模型。