人工智能 - 类似于 Summe 的 TextRank 的视频摘要 - 吾爱随笔录

类似于 Summe 的 TextRank 的视频摘要

人工智能机器学习深度学习计算机视觉文本摘要

2021-11-14 02:31:56

我们有流行的TextRank API，它给定文本，对关键字进行排名，并且可以在给定预定义文本长度的情况下应用摘要。

我想知道是否有类似的视频摘要工具。也许是一个库、一个深度模型或基于 ML 的工具，它给出了一个视频文件和一个长度，它对帧或视频场景/镜头进行排名。我想生成具有视觉特征的视频的简短摘要。

1个回答

视频摘要可以被认为是在不丢失太多信息的情况下将原始视频提炼成更紧凑形式的过程。在一般的视频摘要系统中，提取视频帧的图像特征，然后通过分析视觉特征之间的视觉变化来选择最具代表性的帧。这可以通过对整个视频进行整体查看或通过识别相邻帧之间的局部差异来完成。大多数尝试依赖于全局特征，例如颜色、纹理、运动信息等。聚类技术也用于总结。视频摘要可以分为两种形式：

静态视频摘要（关键帧）和
动态视频摘要（视频浏览）

静态视频摘要由从原始视频中提取的一组关键帧组成，而动态视频摘要由一组镜头组成，并考虑到所有视频镜头之间的相似性或特定领域的关系。

下面是一个基于注意力的视频摘要模型——ACCV 2018-AIU2018论文Video Summarization with Attention的PyTorch实现

有一个使用强化学习的视频摘要集中模型 -深度强化学习的无监督视频摘要（Theano）

有一种基于 LSTM - GAN 的视频摘要方法 -视频摘要 lstm-gan pytorch 实现

微软必应搜索提出了一种使用缩略图的视频摘要技术。智能搜索：使用机器学习进行视频摘要

其它你可能感兴趣的问题

上一篇在论文“Label-Free Supervision of Neural Networks with Physics and Domain Knowledge”中，网络如何知道要跟踪哪些对象？下一篇为什么分层神经网络难以处理连续数据？