我正在尝试检测视频文件中的电视频道徽标。因此,简单地说,给定一个输入.mp4
视频,检测它是否在特定帧中存在该标志,比如第一帧。
这是带有徽标的框架的第一个示例。
这是第二个例子。
我们事先有那个标志(尽管可能不是相同大小的 %100),并且位置始终是固定的。
我已经有了基于模式匹配的方法。但这需要模式是 %100 相同的大小。
我想使用深度学习和神经网络来实现这一目标。我怎样才能做到这一点?我相信 CNN 可以有更高的效率。
我正在尝试检测视频文件中的电视频道徽标。因此,简单地说,给定一个输入.mp4
视频,检测它是否在特定帧中存在该标志,比如第一帧。
这是带有徽标的框架的第一个示例。
这是第二个例子。
我们事先有那个标志(尽管可能不是相同大小的 %100),并且位置始终是固定的。
我已经有了基于模式匹配的方法。但这需要模式是 %100 相同的大小。
我想使用深度学习和神经网络来实现这一目标。我怎样才能做到这一点?我相信 CNN 可以有更高的效率。
要执行图像识别,您必须找到一种方法来表示具有某些特征的图像。
一个好的图像识别算法的定义特征之一是它能够检测显着区域,即包含最多信息的区域
目前,基于内容的图像分类的深度学习受到了很多关注。您可以通过实施具有三层或多层 CNN 的深度学习来获得不错的结果,其中每一层负责提取图像的一个或多个特征。
因为它是视频输入,而徽标通常是固定的,因为它们通过硬件或软件叠加在实时或录制的帧上,因此任务并不困难。徽标通常也具有有限的调色板和清晰的边缘。他们的字体特征,当他们拼写单词或首字母缩写词时,通常也是一致的。这些是可以在深度学习中利用的普遍性。
与作者发布的其他类似问题一样,可以训练 LSTM 和 CNN 层的组合来查找和隔离徽标。通过一些图像技巧,还可以通过一组类似的学习技术从徽标周围的像素中以合理的准确性和可靠性重建徽标背后的图像。
这些是开发的几个起点。