我想要一些建议来验证我构建计算机视觉系统的方法。
设计简介:
使用零售店中现有的闭路电视摄像机,检测店内的客流量(统计个别访客)并确定他们的年龄和性别。
系统将在具有 32GB RAM 的 Nvidia Jetson Xavier AGX 的计算机上运行。
实时收集数据。
理想情况下,该系统应该适用于具有不同相机等的其他商店 - 它不是一次性的解决方案。
准确性只需要足以在数天/数周内进行聚合分析。
约束:
我还无权访问商店的测试镜头 - 必须在没有此信息的情况下进行第一次尝试。
店里的闭路电视摄像头分辨率不算太高,高角度地放在天花板上。任何检测到的人脸都会很小,分辨率很低,而且是侧视图。
该系统应该能够处理戴口罩的人。
商店将有展示架等,所以人们可能会被部分遮挡,系统应该处理这个问题。
需要考虑数据隐私问题。
第一次尝试
我已经建立了第一次尝试逐帧处理素材。它使用一个人检测器和一个人脸检测器来获取边界框。它使用质心跟踪器使用人员边界框为每个人分配 ID。它将人脸检测发送到在IMDB 人脸上训练的年龄和性别 caffe 模型。性别和年龄检测根本不准确。可能是因为示例视频中的人脸很小——比如 50x50 像素。性别检测高度偏向男性分类。
新尝试
我认为对于此应用程序,使用全身人物属性检测比仅面部年龄/性别检测更合适?我应该放弃基于面部的方法吗?
像 DeepSORT 这样的方法而不是质心跟踪可能会更好。
使用 YOLOv4 进行人员检测。
我需要包括一些人的重新识别,因为我需要确定在商店中花费的总时间。你会如何处理这个问题?
我正在尝试使用这个库KaiyangZhou / deep-person- reid进行人员属性检测(使用 PA-100K 训练)和人员 re-id(使用 Market-1501 训练)。
您将如何构建这个项目?
这是我的第一个计算机视觉项目,对看似显而易见的建议如此开放。