为了好玩,我想设计一个卷积神经网络来识别第一人称射击游戏中的敌方 NPC。我已经捕获了 100 个 NPC 的 jpeg 以及 100 个非 NPC 的 jpeg。我已经成功训练了一个非常简单的 convNEt 来识别 NPC。这真的很简单,因为游戏实际上用红色标记突出了 NPC,让人类识别它们。让机器学习算法非常容易找到它们。
太好了,现在我可以对 NPC 的屏幕截图进行分类了。下一步是以每秒 60 帧的速度在数据流中识别这些。我们都知道,大多数相机内部的愚蠢的小处理器都有一个实时运行的人脸检测算法。所以我的带有 2 个 NVIDIA gpus 的 i7 可以毫不费力地做到这一点。所以现在我必须抓取屏幕缓冲区,捕获屏幕截图,将其提供给我的 conVnet,获取 NPC 的位置,然后将鼠标光标移动到该 NPC 的中心。
是否有任何易于遵循的在这样的数据流上运行卷积神经网络的教程?