机器算法验证 - 为什么 Permuted MNIST 适合评估持续学习模型？ - 吾爱随笔录

为什么 Permuted MNIST 适合评估持续学习模型？

机器算法验证神经网络数据转换数据集领域适应持续学习

2022-03-17 11:39:14

当我阅读有关持续学习的论文时，我发现许多研究人员使用它permutated MNIST来评估他们的方法。

我明白它是什么，但我不清楚他们为什么使用它？

我的理解是，他们试图引入噪声（通过对图像应用随机排列），但排列后的图像非常嘈杂，即使是人类也无法识别。

应用模糊、旋转或一些失真是可以理解的，但为什么要置换像素呢？

PS。我提到的论文的一个例子：持续学习的三个场景

4个回答

实际上，正如本文https://arxiv.org/abs/1805.09733中所述，置换 MNIST 评估并不是衡量持续学习性能的好方法。这是因为排列后的图像与原始图像差异太大，这不是真实世界场景的良好表示。通常，具有新数据集的新任务可能具有相似的图像，这可能导致网络做出误报预测。

由于作者使用的 MLP 没有像 CNN 那样利用像素之间的空间关系，因此他们的模型学习 MNIST 与置换 MNIST 并不容易或困难。

排列后的图像非常嘈杂，即使是人类也无法识别。

虽然图像看起来很嘈杂，但实际噪声量接近 0，因为它们只是无噪声 MNIST 的置换版本。

应用模糊、旋转或一些失真是可以理解的，但为什么要置换像素呢？

模糊、旋转或失真实际上在此设置中效果不佳，因为这将测试模型泛化到模糊/旋转/失真的能力，而实际目标是测试持续学习。

我找到了一篇可以清楚地回答我自己的问题的论文。

https://arxiv.org/abs/1708.02072

数据排列实验——每个特征向量的元素都是随机排列的，排列在一个会话中保持不变，但在会话之间变化。该模型是根据其回忆先前研究课程中学到的数据的能力来评估的。每个会话包含相同数量的示例。

在持续学习中，存在三个主要问题范式：

任务增量学习（我们希望模型解决多个不同的任务）
类增量学习（我们希望模型解决分类问题，同时在每个新任务中呈现额外的类）
领域增量学习（我们希望模型回答相同的问题，但数据的底层分布随每个任务而变化）。

Permuted MNIST ¹旨在展示后一个问题的示例，其中问题（和输出标签）相同：

“这是 0、1、2、3、……还是 9 的图像？”

但输入数据的基本分布因每个任务而异。

但是请注意，Permuted NIST 已被批评²没有为持续学习模型提供评估设置的实际示例（即任务之间几乎没有相似性）。一个更自然的例子可能是，您有一个模型，旨在根据在室内拍摄的面部爆头照片对猫和狗的图像进行分类。您收到名义上相同任务的新数据（分类猫和狗的图片），但图像来自不同的分布，其中假设共享可学习特征的子集（例如动物的颜色、面部特征等），例如：

个人资料中的动物照片
不同种类的猫和狗的照片
不同背景下的照片（公园与室内）

^{Permuted MNIST 最初是在An Empirical Investigation of Catastrophic Forgetting in Gradient-Based Neural Networks (2015) 中提出的，此后已被用作持续学习中 Domain-IL 性能的常见测试（例如持续学习的三个场景）：

为了测试这种学习问题，我们设计了一对简单的任务，其中任务相同，但输入格式的方式不同。具体来说，我们使用了 MNIST 分类，但旧任务和新任务的像素排列不同。因此，这两项任务都受益于笔画检测器之类的概念，或者将笔画组合成数字的概念。但是，任何单个像素的含义都是不同的。网络必须学会将新的像素集合与笔画相关联，而不会显着破坏旧的更高层次的概念，或擦除像素和笔画之间的旧连接。

对持续学习的稳健评估（2019）：

跨任务相似性来自后期任务的输入数据必须与旧任务足够相似，以至于它们至少有时会在训练早期对旧类做出自信的预测。广泛使用的 Permuted MNIST（参见 §4.2.1）违反了这个...}

其它你可能感兴趣的问题

上一篇如何解释标准化残差的 QQ 图的这种形状？下一篇时间序列预测的虚拟/基线模型