我在网上观看了一些关于卷积网络的视频,演讲者正在讨论在图像上运行过滤器的概念。
这听起来不错,但我不确定减少图像的空间维度以增加深度有什么特别之处?是什么让深度比任何其他维度更重要?维度只是维度,对吧?
编辑:我有一种预感,原因将与翻译独立性有关......
我在网上观看了一些关于卷积网络的视频,演讲者正在讨论在图像上运行过滤器的概念。
这听起来不错,但我不确定减少图像的空间维度以增加深度有什么特别之处?是什么让深度比任何其他维度更重要?维度只是维度,对吧?
编辑:我有一种预感,原因将与翻译独立性有关......
层深度和逐渐金字塔缩减的要点是建立空间不变表示的层次结构,每个层次都比先前层次的更复杂。例如,在最低级别,卷积可能能够挑选出值得注意的像素排列;在下一个层次,它可以将这些浓缩成特定的点、基本形状、边缘等;然后在更高的层次上,它可以识别越来越大和越来越复杂的对象。我将从Gerod M. Bonhoff 的论文1中借用一个例子关于霍金斯的分层时间记忆(HTM),这是一个密切相关的概念,它也利用感受域来构建不变表示。在更高级别,过滤过程允许卷积或 HTM 将单独的线条和形状组合成对象,如“狗尾巴”或“狗头”;在下一阶段,它们可以被识别为“狗”,或者可能是特定的变体,例如“德国牧羊犬”。
这不仅是通过多层的堆叠实现的,而且是通过将其中的神经元划分为单独的感受区域来实现的。感受区模仿实际的神经元“细胞集合”和皮质柱,它们学习成群地一起发射;这使得可以围绕特定类型的对象进行聚类,而附加层允许它们一起关联成越来越复杂的对象。您引用的示例中空间维度的减少反映了当我们向上移动金字塔时接受区域的缩小;第三维(即层内的深度,与层的深度相反)串联增加,以便我们可以在每个阶段提供更广泛的空间不变表示选择,即,输出体积深度维度中的每个过滤器都学会了看不同的东西。如果我们只是在每个维度的每个阶段缩小金字塔,最终我们将只剩下一小部分可供选择的对象;走得够远了,它可能只会让我们在顶部留下一个节点,反映“这是一只狗还是不是狗”之间的一个是-否选择。这种更灵活的设计让我们可以选择上一层空间不变表示的更多组合。我相信这也使卷积网络能够通过添加更多单元组件/列来处理不变表示的每次重新定向,从而考虑各种方向问题,包括平移独立性。最终我们将只剩下一小部分可供选择的对象;走得够远了,它可能只会让我们在顶部留下一个节点,反映“这是一只狗还是不是狗”之间的一个是-否选择。这种更灵活的设计让我们可以选择上一层空间不变表示的更多组合。我相信这也使卷积网络能够通过添加更多单元组件/列来处理不变表示的每次重新定向,从而考虑各种方向问题,包括平移独立性。最终我们将只剩下一小部分可供选择的对象;走得够远了,它可能只会让我们在顶部留下一个节点,反映“这是一只狗还是不是狗”之间的一个是-否选择。这种更灵活的设计让我们可以选择上一层空间不变表示的更多组合。我相信这也使卷积网络能够通过添加更多单元组件/列来处理不变表示的每次重新定向,从而考虑各种方向问题,包括平移独立性。这种更灵活的设计让我们可以选择上一层空间不变表示的更多组合。我相信这也使卷积网络能够通过添加更多单元组件/列来处理不变表示的每次重新定向,从而考虑各种方向问题,包括平移独立性。这种更灵活的设计让我们可以选择上一层空间不变表示的更多组合。我相信这也使卷积网络能够通过添加更多单元组件/列来处理不变表示的每次重新定向,从而考虑各种方向问题,包括平移独立性。
正如github 上的这个优秀教程所解释的那样,
首先,输出体积的深度是一个超参数:它对应于我们想要使用的过滤器的数量,每个过滤器都学习在输入中寻找不同的东西。例如,如果第一个卷积层将原始图像作为输入,那么沿深度维度的不同神经元可能会在存在各种定向边缘或颜色斑点的情况下激活。我们将一组神经元都在输入的同一区域称为深度列(有些人也更喜欢术语纤维)。
这种设计的灵感来自于在实际生物体中发现的各种生物学上合理的结构,例如猫的眼睛。如果我在这里说的不够清楚,无法回答您的问题,我可以添加更多细节,包括更多示例,其中一些基于此类实际器官。
1参见 pp. 26-27, 36 76 Bonhoff, Gerod M.,使用分层时间记忆检测异常网络活动。论文于 2008 年 3 月交付给位于俄亥俄州赖特-帕特森空军基地的空军技术学院。