视觉转换器的主要层是什么?

人工智能 神经网络 深度学习 变压器 层数 视觉转换器
2021-10-20 03:00:58

目前,我正在研究使用深度学习方法进行深度伪造检测。正如我在研究中发现的那样,卷积神经网络、循环神经网络、长短期记忆网络和视觉转换器是用于深度伪造检测的著名深度学习方法。

我发现 CNN、RNN 和 LSTM 是多层神经网络,但我对 Vision Transformer 中的神经网络层几乎没有发现。(就像典型的 CNN 有一个输入层、池化层和一个全连接层,最后是一个输出层。RNN 有一个输入层、多个隐藏层和一个输出层。)

那么,视觉转换器中的主要神经网络层什么?

1个回答

Transformer 架构家族是一个独立的 NN 架构家族,不同于 CNN 和 RNN。

Vision Transformer的主要部分是自注意力层。

论文An Image is Worth 16x16 Words中提出的架构将每个 16x16 视为句子中的一个单词。有一个卷积层(kernel_size=16 和 stride16)将输入补丁转换为 NLP 问题中的标记,然后这些标记通过多个层传播。

在此处输入图像描述

每个 Transformer 编码器都是一个标准的 Transformer 块,包括:

  • 多头自注意力层,将标记转换为键、查询和值
  • Feedforward layer独立作用于每个令牌(逐点非线性)
  • LayerNormalization它们之间的模块。

在此处输入图像描述

每个图像都被视为一个句子或文本块。自注意力层的主要思想和优势是能够收集给定数据样本的全局上下文,而 CNN 仅限于给定像素的邻域(并且可以在足够数量的卷积层)。

如果您对变形金刚没有经验,我建议您阅读此博客,作为对变形金刚的易于访问且全面的介绍。