此刻,当给定来自相机的帧时,我可以使用 NN 来识别物体,例如人。一旦找到对象,我就可以将人类对象图像提供给旨在对男性或女性进行分类的 NN。
假设我从相机每秒获取 1 帧并执行检测,目的是跟踪给定小时内通过相机的男性和女性的数量。
我的问题是,多帧中的同一个人会被多算。我无法理解如何训练神经网络来理解这是同一个人而不深入面部识别?我确定有一些我不知道的跟踪技术。
有一点限制,如果这个人离开了相机框架,稍后又回到了它,把它当作两个人来对待是可以的。
此刻,当给定来自相机的帧时,我可以使用 NN 来识别物体,例如人。一旦找到对象,我就可以将人类对象图像提供给旨在对男性或女性进行分类的 NN。
假设我从相机每秒获取 1 帧并执行检测,目的是跟踪给定小时内通过相机的男性和女性的数量。
我的问题是,多帧中的同一个人会被多算。我无法理解如何训练神经网络来理解这是同一个人而不深入面部识别?我确定有一些我不知道的跟踪技术。
有一点限制,如果这个人离开了相机框架,稍后又回到了它,把它当作两个人来对待是可以的。
解决问题的一种方法可能是跟踪器(如卡尔曼)。这将比神经网络更快、更容易。
如果你坚持要通过神经网络来解决这个问题,那么就需要一些魔法和创造力。根据跟踪的性质,您需要输入多个帧来预测对象的下一个位置,并检查附近是否有任何对象。因此,您可以考虑将 RNN 与 CNN 相结合来预测下一个边界框,以跟踪并用 RNN 替换卡尔曼滤波器的预测。(检查)