人工智能 - 根据一系列图像创建字幕 - 吾爱随笔录

人工智能图像识别

2021-11-01 13:28:21

我想为一部无声电影制作字幕。是否有一个开源项目能够根据一系列图像（例如电影中的场景）创建字幕？

编辑：感谢以下评论。为了澄清，我正在寻找的是一种算法，它可以为电影中的一系列图像生成标题，描述序列中发生的事情。这是为了初步研究，所以准确性不太重要。

3个回答

您可能要查找的内容称为视频字幕。这一研究领域的早期例子是：

以下是这些论文中报告的结果（正面和负面）的屏幕截图：

对于 ICCV 论文，不难找到一些实现，例如这里。

对于最近的结果，我建议查看ActivityNet 2017 Challenge -dense captioning或其2018 版本。一些成功的解决方案包括：

但是我不确定是否已经发布了任何开源实现。

有关更多信息，您可以深入研究一些研究出版物，看看它们是否提供了其实施的链接。大多数研究人员将他们的工作公之于众。

以下是展示他们使用机器学习与视频字幕相关的工作的出版物列表。令人敬畏的深度视觉

这是另一个出版物，展示了如何为视频生成字幕。使用分层递归神经网络的视频段落字幕

不，即使是生成视频的简短摘要也超出了当前技术水平的范围。训练这样的模型是一项艰巨的任务。到目前为止，视频理解与研究相去甚远。但是您可以尝试生成视频某些关键帧的描述，并将它们对齐以形成有意义的段落。

其它你可能感兴趣的问题