当我阅读有关持续学习的论文时,我发现许多研究人员使用它permutated MNIST
来评估他们的方法。
我明白它是什么,但我不清楚他们为什么使用它?
我的理解是,他们试图引入噪声(通过对图像应用随机排列),但排列后的图像非常嘈杂,即使是人类也无法识别。
应用模糊、旋转或一些失真是可以理解的,但为什么要置换像素呢?
PS。我提到的论文的一个例子:持续学习的三个场景
当我阅读有关持续学习的论文时,我发现许多研究人员使用它permutated MNIST
来评估他们的方法。
我明白它是什么,但我不清楚他们为什么使用它?
我的理解是,他们试图引入噪声(通过对图像应用随机排列),但排列后的图像非常嘈杂,即使是人类也无法识别。
应用模糊、旋转或一些失真是可以理解的,但为什么要置换像素呢?
PS。我提到的论文的一个例子:持续学习的三个场景
实际上,正如本文https://arxiv.org/abs/1805.09733中所述,置换 MNIST 评估并不是衡量持续学习性能的好方法。这是因为排列后的图像与原始图像差异太大,这不是真实世界场景的良好表示。通常,具有新数据集的新任务可能具有相似的图像,这可能导致网络做出误报预测。
由于作者使用的 MLP 没有像 CNN 那样利用像素之间的空间关系,因此他们的模型学习 MNIST 与置换 MNIST 并不容易或困难。
排列后的图像非常嘈杂,即使是人类也无法识别。
虽然图像看起来很嘈杂,但实际噪声量接近 0,因为它们只是无噪声 MNIST 的置换版本。
应用模糊、旋转或一些失真是可以理解的,但为什么要置换像素呢?
模糊、旋转或失真实际上在此设置中效果不佳,因为这将测试模型泛化到模糊/旋转/失真的能力,而实际目标是测试持续学习。
我找到了一篇可以清楚地回答我自己的问题的论文。
https://arxiv.org/abs/1708.02072
数据排列实验——每个特征向量的元素都是随机排列的,排列在一个会话中保持不变,但在会话之间变化。该模型是根据其回忆先前研究课程中学到的数据的能力来评估的。每个会话包含相同数量的示例。
在持续学习中,存在三个主要问题范式:
Permuted MNIST 1旨在展示后一个问题的示例,其中问题(和输出标签)相同:
“这是 0、1、2、3、……还是 9 的图像?”
但输入数据的基本分布因每个任务而异。
但是请注意,Permuted NIST 已被批评2没有为持续学习模型提供评估设置的实际示例(即任务之间几乎没有相似性)。一个更自然的例子可能是,您有一个模型,旨在根据在室内拍摄的面部爆头照片对猫和狗的图像进行分类。您收到名义上相同任务的新数据(分类猫和狗的图片),但图像来自不同的分布,其中假设共享可学习特征的子集(例如动物的颜色、面部特征等),例如:
Permuted MNIST 最初是在An Empirical Investigation of Catastrophic Forgetting in Gradient-Based Neural Networks (2015) 中提出的,此后已被用作持续学习中 Domain-IL 性能的常见测试(例如持续学习的三个场景):
为了测试这种学习问题,我们设计了一对简单的任务,其中任务相同,但输入格式的方式不同。具体来说,我们使用了 MNIST 分类,但旧任务和新任务的像素排列不同。因此,这两项任务都受益于笔画检测器之类的概念,或者将笔画组合成数字的概念。但是,任何单个像素的含义都是不同的。网络必须学会将新的像素集合与笔画相关联,而不会显着破坏旧的更高层次的概念,或擦除像素和笔画之间的旧连接。
对持续学习的稳健评估(2019):
跨任务相似性来自后期任务的输入数据必须与旧任务足够相似,以至于它们至少有时会在训练早期对旧类做出自信的预测。广泛使用的 Permuted MNIST(参见 §4.2.1)违反了这个...