如何使用经过 CIFAR-10 训练的网络在照片中查找内容?

数据挖掘 机器学习 神经网络
2022-03-01 07:18:17

有一百万零一个关于如何在 MNIST 数据和 CIFAR-10 数据等样本集上训练神经网络的示例和教程,但是如何从识别 200x200 剪辑的玩具示例开始,每个剪辑都包含一个中心反对一个真正的问题,比如在图片中找到 CIFAR-10 类别对象(下面的狗和猫),就像我认为谷歌为他们的照片注释所做的那样。

在此处输入图像描述

有人可以描述如何实现从课堂到现实世界的这一飞跃吗?

1个回答

这是一个定义明确的问题,称为文本定位。有很多方法可以解决这个问题,但大多数好的方法都是基于深度学习。天真地,你会使用一个像你在 MNIST 上训练的网络来滑动你的输入,看看它在哪里强烈触发以建立一个字符串。这种方法工作得相当好,但是在整个输入图像上进行卷积运算是非常昂贵的。在实践中实际使用的一种方法是一个两步过程,首先有一个经过训练的网络来定位感兴趣的区域,这些区域是可能有文本的部分的边界框,然后使用更高级的网络来抓取文本. 据我了解,现在这也是在一个网络通道中完成的,而不是在单个补丁上查询。

http://www.mathstat.dal.ca/~hgu/Neural%20Comput%20&%20Applic.pdf