以下是 ML 讲师手册的摘录,该手册解释了深度神经网络,使用图像中的猫识别(还有什么!)作为示例。关于 DL 如何实现这一壮举,摘录说,
假设第一层返回棕色/黑色/蓝色/红色的像素数,第二层找到最常见的颜色,如果前一层提供了“棕色”,第三层返回“猫”。[..] 从数学上讲,这个模型对于第一层来说是 [ sum(r = 255, g=255, b=255), ..., ..., sum(r=255, g=0, b=0)] -- 这只是一组适当定位的 relu 函数(好吧,对于 r=234,我们需要两个 relu 函数,所以两层,但你明白了)。第二层将是一个 softmax 层。第三层简直就是一个身份!
现在我使用深度网络,但我不确定如何构建 DL 来做到这一点。ReLu 只是一个 max(0,x),那么我将如何过滤掉像素值,例如 128,128,128 并将它们相加?卷积层在这里也不会起作用吗?一个简单的深度网络的布局会是什么,就像上面描述的那样?
谢谢,