如何让 convnets 知道图像实际上是什么,而不是图像上描绘的内容?

人工智能 图像识别 分类 卷积神经网络
2021-10-26 06:13:19

我已将一张墙上涂鸦的图片上传到 Wolfram 的 ImageIdentify,但它将其识别为“单片眼镜”。次要猜测是“灵长类动物”、“原始人”和“人”,因此甚至与“涂鸦”或“绘画”都不相近。

是设计使然,还是有一些方法可以教卷积神经网络 (CNN) 推理并了解更大的图片上下文(如提到的涂鸦)?目前,它似乎是从字面上检测图像中描绘的内容,而不是图像的实际内容

Wolfram 的图像识别:单片眼镜/涂鸦

这可能与此处提到的问题相同,即 DNN 是:

学习通过匹配它们皮毛上的独特点来检测美洲虎,同时忽略它们有四只腿的事实。2015

如果是设计使然,也许有更好的 CNN 版本可以表现得更好?

3个回答

您似乎想要对图像的“风格”进行一些描述。

为了使这项工作普遍进行,我猜这实际上需要大量的预处理才能将“纹理元素”(而不是像素)呈现为基本特征。

这是相当推测的,但一种方法可能是使用迭代函数系统作为提取这些的一种手段。

“空间邻接”(以及因此的 CNN)是否是对这些元素做出更高级别决策的最佳方法(AFAIK)是一个实验问题。

Wolfram 的图像 id 系统专门用于确定图像所描绘的内容,而不是媒介。

为了得到你想要的,你只需要创建你自己的系统,其中训练数据由媒体而不是内容标记,并且可能会摆弄它以更多地关注纹理和诸如此类的东西。神经网络不在乎我们想要什么——它没有固有的偏见。它只知道它被训练的目的。

这就是它的全部。这一切都与训练标签和系统的焦点有关(例如,一个寻找形成形状的边缘图案的系统,与一个检查图像中的线条是否完全由计算机生成的直线和干净与不完美的笔刷的系统相比)笔画与喷漆)。

现在,如果您要我告诉您如何构建该系统,我不是问的合适人哈哈

如果我查看图像,我可以将单片眼镜视为图像的一部分所以其中一部分是分类器忽略了大部分图像。在此处使用的意义上,这可以称为缺乏“完整性” (关于图像摘要的计算机视觉论文)。

发现这些故障模式的一种方法是对抗性图像,它经过优化以欺骗给定的图像分类器。在此基础上,对抗性训练的想法是同时训练相互竞争的“机器”,一个试图合成数据,另一个试图找出第一个的弱点。

另请查看此页面:A path to unsupervised learning through adversarial networks,了解有关对抗训练的更多信息。