根据一系列图像创建字幕

人工智能 图像识别
2021-11-01 13:28:21

我想为一部无声电影制作字幕。是否有一个开源项目能够根据一系列图像(例如电影中的场景)创建字幕?

编辑:感谢以下评论。为了澄清,我正在寻找的是一种算法,它可以为电影中的一系列图像生成标题,描述序列中发生的事情。这是为了初步研究,所以准确性不太重要。

3个回答

您可能要查找的内容称为视频字幕这一研究领域的早期例子是:

以下是这些论文中报告的结果(正面和负面)的屏幕截图: 来自 Venugopalan1 的示例 Pasunuru 的例子

对于 ICCV 论文,不难找到一些实现,例如这里

对于最近的结果,我建议查看ActivityNet 2017 Challenge -dense captioning或其2018 版本一些成功的解决方案包括:

但是我不确定是否已经发布了任何开源实现。

这是一个开源实现。时间镶嵌:视频分析的统一方法

有关更多信息,您可以深入研究一些研究出版物,看看它们是否提供了其实施的链接。大多数研究人员将他们的工作公之于众。

以下是展示他们使用机器学习与视频字幕相关的工作的出版物列表。令人敬畏的深度视觉

这是另一个出版物,展示了如何为视频生成字幕。使用分层递归神经网络的视频段落字幕

不,即使是生成视频的简短摘要也超出了当前技术水平的范围。训练这样的模型是一项艰巨的任务。到目前为止,视频理解与研究相去甚远。但是您可以尝试生成视频某些关键帧的描述,并将它们对齐以形成有意义的段落。

检查这个https://arxiv.org/abs/1611.06607