图像分析和视频分析的算法区别

数据挖掘 机器学习 物体识别
2021-09-26 14:24:59

分析视频和图像之间是否存在算法差异,例如,如果我想要对象识别?还是我只需要像图像一样分析视频的每一帧?

例如,与视频相比,在单个图像中检测对象很容易,因为视频中添加了时间维度。此外,在视频中,在每一帧中,物体很可能在移动,这使得帧处于运动状态......那么你如何处理视频中的时间因素和“运动中”部分。这些是我在视频中想象的问题,如果你在上面添加你自己的想法会很好。谢谢

1个回答

这是一个很大的话题,所以我只会给你一个高层次的概述和一些指向更多信息的指针。

是的,肯定有一些处理视频的方法不同于处理单个静止图像。

在最简单的层面上,它可以在每一帧上运行一个对象检测器,例如 HoG(或滑动窗口卷积网络),然后通过一些方法将相邻帧中的附近检测分配为相同的对象,并丢弃不存在的检测似乎在时间上具有连续性。该领域的许多算法似乎将单个帧视为查看整个序列的构建块,其中可能来自相邻帧的数据被组合、聚合和/或用于消除当前帧的歧义。

另一种方法是首先估计帧之间的对象运动(使用光流、相位相关、金字塔块匹配或其他方法),然后将在考虑运动后并置的多个帧的区域视为同一对象。这是非常强大的,但受限于运动估计的准确性。

在较新的研究中,在寻找事物在哪里(检测)和事物如何移动(跟踪)之间存在着反复,每项任务可以帮助另一项任务,例如 (Kalal 2010) 或 (Andriluka 2008),以算法的两个部分不再是可分的。Kalal 的TLD算法是最近著名的版本。

还有一些算法直接在时空(或有时只是时间)域中工作。纯时间的一个例子是通过轮辐变化的周期性来检测车辆。

一些经常研究的模型问题是:

  • 在整个视频序列中检测和跟踪人员、车辆或其他对象。例如,使用CalTech Pedestrians数据集或其他标准基准。

  • 手势识别,用于游戏、用户界面或有时用于手语识别。通常使用深度数据,例如 Kinect 视频。

  • 活动识别,例如步行与站立。由于这个问题的性质,在这里看到纯时空算法更为常见,例如(Sadanand and Corso 2012)。

  • 同时定位和映射 (SLAM)。通常在机器人技术中发现,这个问题基本上是从四处移动的单个摄像机(或立体或深度视频)的视频中构建环境的 3D 模型;环境通常被认为是静态的。这通常通过运行某种特征检测器(如 SIFT 或 SURF)来完成,匹配连续帧中的特征,然后根据特征暗示的相对 3D 运动构建点云。

这里还有一些参考资料:

Shah、Mubarak 和 Ramesh Jain 合编。基于运动的识别。卷。9. 施普林格科学与商业媒体,2013 年。

土耳其人,马修。“手势识别。” 计算机视觉:参考指南(2014):346-349。

Rosenfeld、Azriel、David Doermann 和 Daniel DeMenthon 合编。视频挖掘。卷。6. 施普林格科学与商业媒体,2013 年。

Kalal、Zdenek、Krystian Mikolajczyk 和 Jiri Matas。跟踪-学习-检测。 ” 模式分析和机器智能,IEEE Transactions on 34.7 (2012): 1409-1422。

M. Andriluka、S. Roth、B. Schiele。People-Tracking-by-Detect 和 People-Detection-by-Tracking计算机视觉和模式识别 (CVPR) 2008

Sadanand、Sreemananath 和 Jason J. Corso。“动作银行:视频中活动的高级表示。” 计算机视觉和模式识别 (CVPR),2012