我正在开发一个游戏 AI,它试图掌握赛车模拟。我已经在我玩游戏的游戏画面上训练了一个 CNN (AlexNet),并将按键作为目标。由于 CNN 仅在逐帧的基础上进行预测,并且由于 GPU 内存限制,我将图像输入调整为 160x120,它无法读取速度计,因此它似乎对其当前速度没有感觉。
我想了不同的方法来解决这个问题:
将捕获的图像裁剪为速度计的大小,以英里/小时显示当前速度,并将低分辨率的游戏图像以及当前速度的相对高分辨率图像 (70x30) 输入神经网络,它根据两张图像进行预测。
由于我不知道 AlexNet 是否也可以用作 OCR,所以我的第二个想法是在裁剪后的图像上使用现有的(如 tesseract-ocr/PyTesser)并将其输出提供给全连接层。
我已经尝试实现一个光流算法,但遗憾的是,没有一个 Python 算法似乎能输出良好的实时结果。我想知道我是否可以输入当前帧以及最后一帧,并让 AlexNet 找出运动。
由于处理必须实时进行,而且我发现的 pytesser 的唯一性能评估报告的处理时间约为 100 毫秒(从未测试过)。
我的问题是:哪种方法最有效?
光流方法的优势在于人工智能也知道其他汽车在哪个方向移动。