我想为一部无声电影制作字幕。是否有一个开源项目能够根据一系列图像(例如电影中的场景)创建字幕?
编辑:感谢以下评论。为了澄清,我正在寻找的是一种算法,它可以为电影中的一系列图像生成标题,描述序列中发生的事情。这是为了初步研究,所以准确性不太重要。
我想为一部无声电影制作字幕。是否有一个开源项目能够根据一系列图像(例如电影中的场景)创建字幕?
编辑:感谢以下评论。为了澄清,我正在寻找的是一种算法,它可以为电影中的一系列图像生成标题,描述序列中发生的事情。这是为了初步研究,所以准确性不太重要。
您可能要查找的内容称为视频字幕。这一研究领域的早期例子是:
维努戈帕兰等。人。序列到序列 - 视频到文本,ICCV 2015
帕苏努鲁等人。ACL 2017 中的多任务视频字幕与视频和内容生成
对于 ICCV 论文,不难找到一些实现,例如这里。
对于最近的结果,我建议查看ActivityNet 2017 Challenge -dense captioning或其2018 版本。一些成功的解决方案包括:
但是我不确定是否已经发布了任何开源实现。
这是一个开源实现。时间镶嵌:视频分析的统一方法
有关更多信息,您可以深入研究一些研究出版物,看看它们是否提供了其实施的链接。大多数研究人员将他们的工作公之于众。
以下是展示他们使用机器学习与视频字幕相关的工作的出版物列表。令人敬畏的深度视觉
这是另一个出版物,展示了如何为视频生成字幕。使用分层递归神经网络的视频段落字幕
不,即使是生成视频的简短摘要也超出了当前技术水平的范围。训练这样的模型是一项艰巨的任务。到目前为止,视频理解与研究相去甚远。但是您可以尝试生成视频某些关键帧的描述,并将它们对齐以形成有意义的段落。