MNIST 最先进的 ANN 架构是什么?

数据挖掘 机器学习 深度学习 神经网络 卷积神经网络 极简主义
2021-09-20 14:54:49

MNIST经典数字分类任务的最佳神经网络架构实际上是什么?我找不到任何声称自己是赢家的人...

4个回答

实际上,我要讨论的不是架构,而是网络中使用的模块。它在基于字符的数据集上表现得非常好,MNIST尽管它们还有其他功能。Max Jaderberg等人了一篇名为Spatial Transformer Networks的论文。它试图引入池化层的替代方案。它所做的是试图通过减少转换(如平移和旋转)甚至减少输入的失真来找到其输入的规范形状。它引入了一个模块,可以帮助卷积网络真正是空间不变的。这项工作很棒,而且论文很容易阅读。根据经验,使用这些模块可能会减少神经元和层的数量,因为使用它们的网络不会尝试学习输入的额外内容,例如对输入应用的转换。原因是网络会尝试学习输入的规范形状。

在此处输入图像描述

(a) 显示了网络的任意输入 (b) 显示了空间变换器所做的工作,最后 (c) 是空间变换器的输出,可以通过网络的其他层使用。

该模块的一项重大成就是它试图增强失真输入。

在此处输入图像描述

它的表现可以在这里看到。

据我所知,MNIST 竞赛中最先进的架构是 2018 年RMDL(用于分类的随机多模型深度学习)模型。检查ArXive 论文

该模型不是一个网络,而是一个网络的集合,它在这里排名第一。他们的 GitHub 存储库在这里

您需要查看Papers with Code上最先进的 (SOTA) 可视化。

答案是“具有同质过滤胶囊的分支和合并卷积网络”

在对 Kaggle 的 42,000 张图像以及通过旋转、缩放和移动 Kaggle 图像创建的另外 2500 万张图像进行训练之后,15 个 CNN 的集合对 Kaggle 的 MNIST 数字进行了分类。从 25,042,000 张图像中学习,这个 CNN 集合达到了 99.75% 的分类准确率。技术包括数据增强、非线性卷积层、可学习池化层、ReLU 激活、集成、装袋、衰减学习率、辍学、批量归一化和亚当优化。GM CDeotte 在这里详细解释了拱门: https ://www.kaggle.com/cdeotte/25-million-images-0-99757-mnist

另一个答案中共享的 SOTA 链接使用从最终过滤器生成的同质矢量胶囊,并给出 99.85% - 增加了 0.1%。然而,这不是普通的 Apple 到 Apple 的转换,因为 Kaggle 解决方案只涉及使用主机提供的 MNist 图像的一个子集。可能在完整的 MINST 数据库上使用它可以使其更接近 SOTA 分数。

但真正的问题是 - 这与宇宙中最好的 SOTA CNN 架构的准确性相比如何 - 人类思维。虽然没有正式的研究,但 99.8% 是“声称的”人类基准,现在似乎已经被打破