我试图了解如何对图像进行编码以进行分类/识别。
假设我有包含动物(例如狗、猫、鸟)的图像——每张图像是否都有该动物的标签,还是该标签仅适用于图像中包含动物的部分?如果对整个图像进行编码,分类器是否需要更长的时间来学习?
我试图了解如何对图像进行编码以进行分类/识别。
假设我有包含动物(例如狗、猫、鸟)的图像——每张图像是否都有该动物的标签,还是该标签仅适用于图像中包含动物的部分?如果对整个图像进行编码,分类器是否需要更长的时间来学习?
这将取决于您要执行的任务类型:对象识别是一项广泛的任务,可以通过不同的方式来处理,例如:
每种方法(及其组合)对从图像中提取的特征向量使用不同的表示。大多数典型的表示试图根据其目的对图像上的某些条件保持不变,例如比例、旋转和照明变化。一些成功的表示是:
随着深度网络的兴起,正在获得令人惊讶的结果,将图像作为代表它们的原始像素[6]。但是,您可能需要数十万张图像来正确训练可以抽象特征以进一步识别对象的网络。您实际上可以在 [Find actual links here][2] 中查看非常成功的 VGG 卷积网络实施
以前的方法通常要求您为每个示例标记目标值(猫、狗等)。在深度学习的情况下,您能够使用无监督数据(未标记)学习图像的第一个表示,并且能够以监督方式(使用标记数据)在网络顶部训练分类器
您可以在以下位置找到大部分参考资料:[Google Scholar][3]
[1]:[陈新和沉(2009)]小花胡新陈和沉夏炯。视觉词袋的空间加权及其在基于内容的图像检索中的应用。知识发现和数据挖掘的进展,2009
[2]:[维奥拉和琼斯 (2004)] 保罗维奥拉和迈克尔 J. 琼斯。强大的实时人脸检测。诠释。J.计算机。视觉,57(2):137–154,2004 年 5 月。ISSN 0920-5691。
[4]:[Jia Deng and Fei-Fei(2014)] Jonathan Krause Michael Bernstein Alex Berg Jia Deng, Olga Russakovsky and Li Fei-Fei。可扩展的多标签注释。ACM 计算系统中的人为因素会议,2014 年。
[5]:[Xin Chen and Shen (2009)] 胡小华,Xin Chen,Xiajiong Shen。视觉词袋的空间加权及其在基于内容的图像检索中的应用。知识发现和数据挖掘的进展,2009。
[7]:[Krizhevsky 等人 (2012)Krizhevsky、Sutskever 和 Hinton] Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton。Imagenet 分类与深度卷积神经网络。在 P. Bartlett、Fcn Pereira、Cjc Burges、L. Bottou 和 Kq Weinberger 的编辑中,神经信息处理系统的进展 25,第 1106-1114 页。2012 年。
[8]:[Lowe(2004)]大卫·G·洛。来自尺度不变关键点的独特图像特征。诠释。J.计算机。愿景,60(2):91–110,2004 年 11 月。
[9]:[van Ginneken(2002)] AF Staal JJ ter Haar Romeny BM van Ginneken,B.Frangi。具有最佳特征的主动形状模型分割。医学成像,IEEE Transactions on。2002 年第 21 卷。
[10]:[马修斯和贝克(2004)]伊恩马修斯和西蒙贝克。重新审视主动外观模型。国际计算机视觉杂志。第 60 卷,2004 年。