如何使用经过 CIFAR-10 训练的网络在照片中查找内容?
数据挖掘
机器学习
神经网络
2022-03-01 07:18:17
1个回答
这是一个定义明确的问题,称为文本定位。有很多方法可以解决这个问题,但大多数好的方法都是基于深度学习。天真地,你会使用一个像你在 MNIST 上训练的网络来滑动你的输入,看看它在哪里强烈触发以建立一个字符串。这种方法工作得相当好,但是在整个输入图像上进行卷积运算是非常昂贵的。在实践中实际使用的一种方法是一个两步过程,首先有一个经过训练的网络来定位感兴趣的区域,这些区域是可能有文本的部分的边界框,然后使用更高级的网络来抓取文本. 据我了解,现在这也是在一个网络通道中完成的,而不是在单个补丁上查询。
http://www.mathstat.dal.ca/~hgu/Neural%20Comput%20&%20Applic.pdf
