迁移学习:要求源域和目标域的数据独立同分布

机器算法验证 机器学习 随机变量 数据集 独立同居 迁移学习
2022-04-08 09:50:59

在基于实例的迁移学习中,要求源域和目标域中的数据是独立同分布的。当它说数据“需要独立且同分布”时,我假设它实际上是指数据的生成过程,因为数据本身不能是 iid (也就是说,iid 不是数据的属性 -它是随机变量的属性),对吗?如果是这样,那么这是否意味着这两个生成过程相对于彼此是独立同分布的?我不知道如何以其他方式解释它,但我想确认一下。

1个回答

我不知道原始陈述的确切含义,但它可能包括以下部分或全部陈述

  1. 源数据生成过程是独立同分布的
  2. 目标数据生成过程是独立同分布的
  3. 进程相互独立

所有这些都是非常明智的标准假设,因为如果不是这种情况,人们可以设计对抗性生成过程,该方法的工作方式与 iid 数据集的工作方式截然不同。

对于第 1 点和第 2 点,一个不好的例子是所有数据都相同。对于 3.,想象一下如果源和目标被迫探索相空间的非常不同的部分。这要求它们不是 iid,但会导致迁移学习无用,因为不会有重叠

编辑:基于评论的一些澄清

Q1)如果你不能假设 iid,这意味着原则上你必须准备好处理任何非 iid 数据集。对抗性意味着一个坏人可能会出现,并且在您的假设允许的所有可能的生成过程中,选择最让您失望的一个。

Q2)相空间是系统所有变量跨越的多维空间。例如,如果您输入一个 10x10 像素的彩色图像,您的相空间将有 10x10x3 = 300 个维度。任何知识都可以表示为相空间的一个分区。例如,猫的所有可能的 10x10 彩色图像将在相空间中占据一定的体积。虽然这个体积不需要是凸的,但它通常集中在相空间的某些部分,如果您的对象(即一只猫)是明确定义的。我强烈建议在尝试学习迁移学习等高级主题之前,先学习动态系统和信息论的入门课程。我认为一般性地思考知识意味着什么是有益的,