什么是级联卷积神经网络?

人工智能 深度学习 卷积神经网络 计算机视觉 定义 文件
2021-11-10 04:54:56

对于我正在做的一个项目,我找到了Full Pose Range 中的 Face Alignment: A 3D Total Solution论文。

它使用的是级联卷积神经网络,但我找不到解释那是什么的原始论文。

通俗地说,级联 CNN 是如何工作的?它解决了什么问题?

1个回答

您引用的论文是介绍级联卷积神经网络的论文。事实上,在这篇论文中,作者说

为了实现 3DDFA,我们建议结合近年来的两项成果,即级联回归卷积神经网络(CNN)。这种组合需要引入同时满足“级联方式”和“卷积方式”的新输入特征(参见第 3.2 节)和可以对 3DMM 参数的优先级进行建模的新成本函数(参见第 3.4 节)

其中 3DDFA 代表3D Dense Face Alignment,本文提出的人脸对齐框架,其中通过级联 CNN(回归器)将密集的3D 可变形模型(3DMM)拟合到图像,其中术语密集指的是数字将被建模的面部点数。参见本文的图 1,它应该提供了该框架目的背后的一些直觉。

在第 3 节(第 3 页)中,他们还说

在本节中,我们将介绍如何结合级联回归和 CNN 来实现 3DDFA。通过在方程式中应用 CNN 作为回归器。1、级联CNN可以表述为:

(1)pk+1=pk+Netk(Fea(I,pk))

在哪里

  • k是迭代次数
  • p是回归目标
  • Net是CNN结构
  • Fea包含两个构造的图像特征
    • 姿势自适应特征 (PAF)(第 3.2.1 节)
    • 投影归一化坐标码 (PNCC)(第 3.2.2 节)
  • I是图像

CNN级联表达式显然是指方程1是迭代使用的,所以会有多个CNN,每次迭代一个k. 事实上,在论文中,他们说

与现有的 CNN 方法为不同的拟合阶段应用不同的网络结构不同,3DDFA 在级联中采用统一的网络结构。一般来说,在迭代k(k=0,1,,K),给定一个初始参数pk, 我们构造 PNCC 和 PAFpk并训练一个两流 CNNNetk进行拟合。合并两个流的输出特征以预测参数更新Δpk

Δpk=Netk(PAF(pk,I),PNCC(pk,I))

之后,一个更好的中间参数pk+1=pk+Δpk成为下一个网络的输入Netk它具有相同的结构但不同的权重Netk.

论文的图 2(第 4 页)中,这个双流 CNN 的结构,Netk, 在迭代k, 显示。