为什么迁移学习在较小的数据集上比在较大的数据集上效果更好?

数据挖掘 监督学习 迁移学习
2022-03-03 07:59:56

这个问题不是关于转移学习与常规监督学习相比的效用。

1. 背景

我正在研究健康监测技术,并在C-MAPSS 数据集上进行练习。目标是在给定传感器测量系列的情况下预测发动机的剩余使用寿命 (RUL)。在健康监测中,一个主要问题是故障示例的数量很少(无法对飞机发动机执行数千次从运行到故障的测试)。这就是为什么已经研究迁移学习来解决这个问题的原因,在Zhang等人,2018 年的《使用深度递归神经网络进行迁移学习以进行剩余使用寿命估计》中。我的问题是关于本文中提出的结果。

2. 问题

C-MAPSS 数据集由 4 个子数据集组成,每个子数据集都有不同的操作模式和故障模式。上面引用的文章在这些子数据集之间进行了迁移学习。特别是,当使用源数据集 A 上的训练模型的权重在目标子数据集 B 上训练模型时,它们不会在所有 B 数据集上训练。他们进行了一项实验,测试目标数据集 B 的各种大小:他们尝试了总数据集 B 的 5%、10%、...、50%。

结果显示在第 11 页。除少数情况外,在较小的目标数据集上具有更好的结果。这对我来说似乎违反直觉:模型如何在更少的示例上学习得更好?

为什么迁移学习在较小的数据集上比在较大的数据集上效果更好?

2个回答

在您提供的文章中,从第 11 页的结果来看,我认为不能得出结论,迁移学习在较小的数据集上比在较大的数据集上效果更好。

如果您查看迁移学习得分值(或 RMSE)与学习大小的结果,随着数据集大小的增加(例如E2E5E8),它也会变得更好。所以迁移学习在小数据集上效果不佳。

但是,您可能正在查看IMP指数,该指数基于使用不使用迁移学习的学习的平均分数(或 RMSE)。

IMP= (1−(WithTransfer)/(NoTransfer))×100

该指数基于两条曲线。

  • WithTransfer即使在开始时也会有很好的性能,因为当使用相关的迁移学习时,模型已经可以从非常小的测试数据集中提取相关信息。
  • NoTransfer从性能不佳(难以概括)开始,然后随着测试数据的大小而增加。

IMP指数具有您指出的预期曲线,例如E2E5

迁移学习原则上旨在利用从更大的通用数据集(即动物图片分类)上获得的知识来训练一个模型,该模型使用较小的数据集(即猫品种图片分类)专注于更具体的任务。

迁移学习也称为域适应,本质上是指通过利用在另一种环境中已经学到的知识来提高一种环境中的泛化能力。由于缺乏数据,它归结为使用从解决更通用任务中学到的模式来训练和解决更具体的任务。