ReLu、Sum 和卷积层用于计算特定颜色的像素

人工智能 神经网络 深度学习 卷积神经网络
2021-11-11 02:08:22

以下是 ML 讲师手册的摘录,该手册解释了深度神经网络,使用图像中的猫识别(还有什么!)作为示例。关于 DL 如何实现这一壮举,摘录说,

假设第一层返回棕色/黑色/蓝色/红色的像素数,第二层找到最常见的颜色,如果前一层提供了“棕色”,第三层返回“猫”。[..] 从数学上讲,这个模型对于第一层来说是 [ sum(r = 255, g=255, b=255), ..., ..., sum(r=255, g=0, b=0)] -- 这只是一组适当定位的 relu 函数(好吧,对于 r=234,我们需要两个 relu 函数,所以两层,但你明白了)。第二层将是一个 softmax 层。第三层简直就是一个身份!

现在我使用深度网络,但我不确定如何构建 DL 来做到这一点。ReLu 只是一个 max(0,x),那么我将如何过滤掉像素值,例如 128,128,128 并将它们相加?卷积层在这里也不会起作用吗?一个简单的深度网络的布局会是什么,就像上面描述的那样?

谢谢,

1个回答

我只能从摘录中判断,但我没有看到那里提到卷积层。这并不意味着卷积不适合这个任务(事实上,它是迄今为止图像分类的最佳方法),只是似乎导师提出了这种特殊的网络架构,没有卷积。

由于这种架构更具说明性,而且绝不是标准,因此我不能确定我是否完全理解它。但似乎第一层输出了一个 size 的向量4,其中包含四种选定颜色的计数。这里的 ReLu 操作是一种基于通道值过滤额外颜色的奇特方法(请注意,它们接近于任何一种0255所有四种颜色)。如果您选择不同的四种颜色,则此过滤也必须以不同的方式进行,因此它基本上是硬连线的。第二层更直接。

一般来说,你不应该认为这是一个“真正的”深度网络,而只是一个熟悉 ReLu 操作的难题。