深度学习的视频参与度分析

人工智能 神经网络 深度学习 分类 计算机视觉 图像处理
2021-10-25 13:27:17

我正在尝试根据视频场景/帧对观众的吸引力来对它们进行排名。基本上,视频中的场景对观众来说有多“有趣”或“有吸引力”。我的最终目标是在给定视频作为输入的情况下生成一个 10 秒的简短摘要,例如当您将鼠标悬停在视频上时在 Youtube 上看到的摘要。

我以前在这里问过一个类似的问题但“美学”模型适用于对艺术图像进行排名,而不适用于视频帧。所以它失败了。我需要一个基于“普通观众参与度”的分数。基本上,当被选为缩略图时,视频的哪些场景/帧会带来更多的点击、喜欢和分享。

我们有可用的深度学习模型或原型吗?我可以测试的即用型原型/模型,而不是我需要自己实现的论文。只要代码是开源的,论文就可以了。我是新手,还不能在给定论文的情况下编写代码。

1个回答

您正在寻找的文献中的一个关键术语是视频字幕

您可以查看一些带有此主题代码的相关论文简而言之,这是一个活跃的研究领域和一个难题,一个原因是因为视频仍然很难学习(因为数据量更大+模型​​更大等),并且这个模型必须与两种数据形式:文本和图像。

您可能想要开始的一篇论文是用于生成图像描述的深度视觉语义对齐,它适用于单个图像。简而言之,您可以使用与论文中类似的东西:对象检测器(例如 Faster RCNN)来提取视觉特征并将它们输入到 RNN(LSTM)的状态中,该状态将在您的摘要中输出一系列单词(见下图)。 图像字幕模型