已经表明,可以使用无监督学习技术在 CNN 中产生良好的特征检测器。我不明白是什么推动了这些特征检测器的专业化。在出版物https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf(第 6 页)中,它们显示了一组非常合理的边缘和斑点检测器,几乎没有或没有重叠。这违背了直觉——在没有专门化的动力的情况下,人们会期望至少有一些学习内核的重复。
是什么让学习到的特征检测器专注于 CNN?
当你在检查任何经过辛勤、心智阴谋和深夜调整到工作的深度网络中层的奇怪的自我专业化方面时,当你考虑直觉时,你是在沿着正确的路线思考。
人工智能实验者是否操纵参数、拓扑结构和算法层次结构来强制电路进化,从而通过像这样的专门功能产生数据流。
- 直接来自视频硬件或多媒体文件的视频通道的噪声、标准化、立方体(水平、垂直、深度)整数
- 边缘指示
- 拐角、末端和弯头的指示
- 相对角度的指示(在尺寸无关识别的情况下)
- 形状指示
- 二维拓扑的指示
- 对象形式的指示
- 场景指示
- 动作指示(当使用超立方体并且框架是另一个维度时)
当然,可以设计一个解决方案,然后按照设计逐层调整层,但这不是必需的,因为熵去除的概念,即去除冗余或不相关的信息。
一般来说,信息科学的原理是这样的:随着从信息中去除冗余,表示信息的比特数减少,抽象级别增加。
在极简主义艺术中,当火车开走时,同卵双胞胎可能会对另一个双胞胎说一句话,或者是一个优秀的图画书玩家,给定一个小的信息传递机会窗口,可以根据先前的信息进行调整以传递大量信息商定的公约。
当你这样想时,通过从一层到另一层缩小聚合数据表示的位宽是有道理的,只有某些参数优化才能提供端到端的收敛指示,给定一个目标,例如完全分类基于少量特征的对象。
当莱布尼茨设想一个由数学确定性联系在一起的世界时,他过于乐观,但他至少在一个重要方面是正确的,数学有它自己的现实。牛顿力学的成功是一个巨大的现实的早期例子,它已经变得明显并且被如此广泛地应用,这是从一个涉及炮弹和月球的思想实验中推断出来的。
很少有发现证明最初似乎是疯狂的发明,而不是对水星先前异常轨道的惊人准确预测。但爱因斯坦对他的成功并不感到惊讶。他从 Ernst Mach 的挑战以及光和引力实验的无可否认的结果中推导出了广义相对论。在它被发现之前,他已经发现了它的样子。
在同样的意义上,上述事件序列可以在数学上被证明是视觉的有效策略。在微生物上出现视觉感受器之前,数学中就有将传入的视觉信号转换为避碰控制的过程序列。这就是为什么翼手龙视觉路径的狭窄与鲨鱼的相似,尽管它们的共同祖先可能无法看到。
专业化的动机是即使在通过限制信息通道孔径而被强制剥夺冗余之后,仍会收敛于目标的动机。即使孔径是多维的,同样的原理也适用。