我发现了一些提到卷积神经网络 (CNN) 的均值池的来源——包括我迄今为止关于 CNN 的所有讲座——但我找不到任何引用至少 10 次且使用均值池的论文。
您知道使用均值池的论文吗?
我发现了一些提到卷积神经网络 (CNN) 的均值池的来源——包括我迄今为止关于 CNN 的所有讲座——但我找不到任何引用至少 10 次且使用均值池的论文。
您知道使用均值池的论文吗?
Sum-pooling,当然只是平均池的一个缩放版本,已经被提出用于基于内容的图像检索(CBIR)的任务。据我所知,第一篇论文如下,并且(根据谷歌学术)在发表的第一年收集了 35 次引用:
1 A. Babenko 和 V. Lempitsky:“为图像检索聚合深度卷积特征”。在IEEE 国际计算机视觉会议 (ICCV) 上,2015 年 12 月,第 1269-1277 页。DOI:10.1109/ICCV.2015.150。arXiv:1510.07493。
图像检索的一个非常简短的解释:对于大规模图像检索,必须将新的查询图像与数千张图像的数据库进行比较,以找到最相似的图像。虽然之前的工作通过匹配 SIFT 描述符实现了这一点,但最近基于 CNN 的描述符已成为最先进的2。
使用 CNN 进行图像检索时的基本思想是,使用经过预训练的网络(通常在分类任务上,例如 ILSVRC)并使用层的输出作为描述符向量3,4。不同的论文建议使用 FC 层之一或 Conv 层之一作为描述符。
由于这些层的输出非常大——太大而不能用作图像的“紧凑”描述符——通常的方法是将维度减少到 32 到 1024 的范围内。这通常通过 L2 归一化来完成→ PCA 美白 → L2 归一化1,3,4。
现在最后,我进入了和池部分:Babenko 和 Lempitsky 1表明,当使用 PCA 和 Whitening 减少结果描述符的维度时,和池导致比最大池更好的检索性能。他们的 SPoC (Sum-Pooling of Convolutions) 方法优于其他池化/嵌入方法,例如最大池化、Fisher 向量和三角嵌入。
最后的话:最近的工作(ICLR 2016)提出了所谓的 R-MAC 描述符5,它是卷积的区域最大激活,即它们使用不同尺度的一组区域,使用 max 计算每个区域的特征向量-pooling,最后总结所有这些区域特征向量。这再次改进了1中提出的 sum-pooling 。它仍然对其中的不同区域进行了一种汇总。
脚注和参考
2如果需要,我可以添加一些引用来显示这一点,只需在下面评论。
3 A.S. Razavian、H. Azizpour、J. Sullivan 和 S. Carlsson,“CNN Features Off-the-Shelf: An Astounding Baseline for Recognition”,IEEE 计算机视觉和模式识别 (CVPR) 研讨会会议,2014 年 6 月,pp . 512–519。DOI:10.1109/CVPRW.2014.131。arXiv:1403.6382。
4 A. Babenko、A. Slesarev、A. Chigorin 和 V. Lempitsky,“用于图像检索的神经代码”,欧洲计算机视觉会议 (ECCV),2014 年 9 月,第 584-599 页。DOI:10.1007/978-3-319-10590-1_38。arXiv:1404.1777。
5 G. Tolias、R. Sicre 和 H. Jégou,“具有 CNN 激活积分最大池的特定对象检索”,国际学习表示会议 (ICLR),2016 年 10 月,第 1-11 页。arXiv:1511.05879。
我自己找到了一个答案:
Boureau、Y-Lan、Jean Ponce 和 Yann LeCun。“视觉识别中特征池化的理论分析”。在第 27 届机器学习国际会议 (ICML-10) 论文集上,第 111-118 页。2010 年。