深度学习的美学分析

人工智能 神经网络 深度学习 计算机视觉 图像处理 艺术美学
2021-11-09 11:06:59

我正在尝试根据美学和电影摄影功能对视频场景进行评分。基本上,对于观众来说,场景或视频帧有多“有趣”。更简单,一个场景有多吸引人。我的最终目标是标记对观众来说可能更有趣的视频间隔。它也可以是“时间注意力”模型。

我们是否有可用的模型或原型来对图像或视频的电影特征进行评分?我需要一个入门教程。基本上,我可以测试一个现成的原型/模型,而不是我需要自己实现的论文。只要代码是开源的,论文就可以了。我是新手,还不能在给定论文的情况下编写代码。

1个回答

图像美学具有很强的主观因素和多维度的可能性,具体取决于媒体的目的。这意味着:

  • 很难定义我们所说的美学评分是什么意思。

  • 给定任何约束良好的定义,然后收集相关数据非常耗时。

然而,机器学习社区有一些兴趣,因为媒体质量将是对数据进行排序和过滤的非常有用的指标(前提是该指标与想要选择它的最终用户足够接近)。因此,有数据集、研究论文和为此预先构建的模型。

媒体质量训练数据可以通过多种方式众包,包括查看社交媒体上项目的受欢迎程度、付费专家评估大量图像。研究人员为此目的编制的一个开放数据集的一个示例称为 AVA

这些数据可能会简化为图像/质量对,然后您可以训练 CNN 模型来预测质量指标(例如,满分 10 分)。这可能只是一个回归,但也考虑了其他更复杂的损失函数。

快速搜索现有模型会出现 Google 的NIMA 项目,该项目有不止一个可用作开源代码的实现。NIMA 似乎使用多类分类方法来预测人类最有可能给出的图像评分,然后得到的分数是预测分数的加权平均值 - 声称的好处似乎是它更好地匹配质量评级的方式来源,它会更好地捕捉分歧意见(例如,一半的人认为图像很糟糕,但一半的人认为它很棒,这是一种不同类型的图像,每个人都认为它只是平均水平)。

这是 Github 帐户“idealo”的 NIMA 实现,看起来完整,文档齐全,可以与预构建的脚本一起使用

只是为了表明这不是一次性的,这里是 Andrej Karpathy 的一篇关于使用 CNN 对自拍进行评分的博客,其中包括对核心 CNN 概念的一些介绍。