什么是胶囊神经网络中的活动向量?

人工智能 神经网络 术语 胶囊神经网络
2021-11-07 23:10:02

我正在阅读Capsules 之间的动态路由论文,并没有理解摘要中的“活动向量”一词。

胶囊是一组神经元,其活动向量表示特定类型实体(例如对象或对象部分)的实例化参数。我们用活动向量的长度来表示实体存在的概率,用它的方向来表示实例化参数。一层的活动胶囊通过变换矩阵对更高级别胶囊的实例化参数进行预测。当多个预测一致时,更高级别的胶囊变得活跃。我们表明,经过判别训练的多层胶囊系统在 MNIST 上实现了最先进的性能,并且在识别高度重叠的数字方面明显优于卷积网络。为了实现这些结果,我们使用了一个迭代的协议路由机制:

我认为向量就像您通过网络运行的一组数据。

我开始学习 Andrew Ng 的深度学习课程,但一切都是新的,术语也让我头疼。

2个回答

在传统的神经网络中,网络的顶点是神经元,单个神经元的输出是单个值(“标量”)。这个数字称为它的激活网络中的一层神经元输出一个激活向量。我们不应将此与胶囊网络中的活动向量混淆。

胶囊网络不同,因为网络顶点是胶囊而不是神经元。它们是更高维的:Capsule 的输出不是标量,而是表示与输入相关的一组参数的向量。因此命名为激活向量

动机

在神经网络中,神经元的标量输出之间没有固有的结构,这是后续层必须学习的。在胶囊网络中,胶囊的输出代表了与该向量相关的所有参数,包括对更深层胶囊激活的预测。这增加了一个有用的局部结构。

例如,考虑人脸识别。如果你有一个知道如何识别眼睛的胶囊,它可以输出一个活动向量,表示例如“因为我已经识别出一个眼睛位置(x,y)有概率p=0.97我预测整个面部的参数将是(f1,,fn)”。

正如在胶囊之间的动态路由论文中所解释的那样,您引用此信息然后以早期层(部分:眼睛、嘴巴、鼻子)中的胶囊预测更深层(面部)的激活的方式使用此信息。例如,只有当眼睛、鼻子和嘴巴识别器(部分)和人脸识别器(整体)关于人脸的位置((f1,,fn)参数)。

历史启示

SIFT等较旧的计算机视觉算法以类似的方式工作,其中识别基于多维特征(关键点)的配置与参考配置之间的一致性。

我认为它的意思是“胶囊中神经元的激活向量”。给定神经元的激活是其输入的加权和,通过激活函数(sigmoid、relu 等)传递。