论文Dynamic Routing Between Capsules使用称为“胶囊之间的动态路由”的算法来确定胶囊之间的耦合系数。
为什么不能通过反向传播来完成?
论文Dynamic Routing Between Capsules使用称为“胶囊之间的动态路由”的算法来确定胶囊之间的耦合系数。
为什么不能通过反向传播来完成?
非常有趣的论文。
我们可以看到,他们有效地概率性地建模了具有各种几何属性的对象的模糊存在,作为场景中的对象,该对象与对应于其可能存在的像素区域挂钩。我同意作者的观点,这是一种比 CNN 和 LSTM 更强大的方法,并且可以与新兴的基于注意力的方法竞争。
似乎确实涉及反向传播,尽管这不是本文的重点。
请注意,“有自上而下的反馈”和“上层有适当的父级”,这是对分层方法的提示,我们可以看到这种方法在输入的整体前馈中并不缺少它的上下文信号输出,所有这些都必须作为一个整体进行训练。但就像更旧的控制系统一样,端到端的收敛是由具有自己控制目标的子系统的更多本地收敛(而不是被取代)来促进的。
概述显示在第 4 页的第 4 节中。
可以想象,整个事情完全可以在没有胶囊的情况下完成,就像前面提到的设计一样,但是当在 MNIST 上没有完全收敛时,这组显然显示出改进的结果。没有与 LSTM 进行比较,但即使 LSTM 显示出更好的结果,这个研究方向也是一个很好的方向,因为它接近对象的概率方式。
考虑一个经典的例子,向一个人挥手,事实证明,他正在向你身后的人挥手。对象或动作的存在必然是概率性的,并且随着对 AI 系统要求的期望增加,构建使用 ReLU 对所有复杂性进行建模所需的网络深度可能是不现实的。