人工智能 - 我应该使用什么方法来检测视频游戏画面中的人脸？ - 吾爱随笔录

我为自己设定了一个挑战，即在一个著名的第一人称射击游戏的视频中检测玩家/机器人的位置（这是我打算做的一个 youtube 系列）。我不确定我应该对这个问题应用哪种 AI 方法——我完全是新手！

我的第一个想法是面部/头部似乎具有最多的细节，因此我可以在精灵头部和一般背景的图像上训练卷积神经网络——但这似乎不太好用，我当然没有用尽不同的网络架构/typologies，但它并没有很好地学习。

我的第二种方法是使用 HAAR 级联。这似乎是一个显而易见的选择，因为它快速且擅长检测对象（而不是多分类）。然而，我的级联在 5 或 6 个阶段（使用 OpenCV）后停止，因为它似乎已经达到了很高的准确性，但它没有检测到我何时向它提供训练图像，更不用说其他图像了。

我还研究了行人检测并获得了该工作的库存版本。然而，当/如果精灵蹲伏或处于不寻常的位置时，这似乎很困难（并且在站立的精灵上并不是很好）。

那么，有没有更适用于这个问题的机器学习/AI 分支呢？如果没有，我应该继续做什么？