为了识别手写数字,我有一个完全连接的网络,仅包含 2 层:输入层(图像的所有像素)和输出层(0 或 1)。我使用最简单的线性回归进行训练,得到了很好的结果。所以我想知道如果双层全连接网络可以很好地完成这项工作,是否不需要 CNN?例如,我想识别数字“1”。我只使用 4 或 5 张类似于“1”的图像,以及其他 4 或 5 张看起来像其他任何东西的图像。每次我从每张图像中提取约 2000 个像素。事实证明,这个带有少量训练数据的代码可以很好地识别正确和不正确的数字。
图像识别:全连接网络 vs CNN
数据挖掘
神经网络
美国有线电视新闻网
线性回归
图像识别
2022-03-10 03:09:34
1个回答
您可能能够在一项简单的任务上获得相当不错的结果,但事实是,随机像素(或者实际上只是将所有像素展平)本质上会破坏原始图像中包含的任何结构信息。
这是卷积网络背后的洞察力(来自原作者 Yann LeCun),因为它们确实在整个数据集中的图像输入的位置/结构中找到了相关区域。因此,他们理解,例如,“1”在垂直线上提供高度相关的像素,通常位于图像输入的中心。
此信息不再包含在随机选择的像素中,并且几乎已通过将所有像素展平为单个向量而被破坏。
如果您的用例需要一定的准确性,并且您通过简单的神经网络(或其他方式)达到了这一点,那么它当然是完全有效的,您会很高兴:-)
其它你可能感兴趣的问题