我正在尝试根据视频场景/帧对观众的吸引力来对它们进行排名。基本上,视频中的场景对观众来说有多“有趣”或“有吸引力”。我的最终目标是在给定视频作为输入的情况下生成一个 10 秒的简短摘要,例如当您将鼠标悬停在视频上时在 Youtube 上看到的摘要。
我以前在这里问过一个类似的问题。但“美学”模型适用于对艺术图像进行排名,而不适用于视频帧。所以它失败了。我需要一个基于“普通观众参与度”的分数。基本上,当被选为缩略图时,视频的哪些场景/帧会带来更多的点击、喜欢和分享。
我们有可用的深度学习模型或原型吗?我可以测试的即用型原型/模型,而不是我需要自己实现的论文。只要代码是开源的,论文就可以了。我是新手,还不能在给定论文的情况下编写代码。