tl;博士我正在尝试训练一个小型 CNN(两个卷积层和两个连接层)来在 COCO 数据集中找到人类。我的网络够大吗?如果够,大概需要多少个训练周期(有 64115 个训练图像)?
我正在尝试制作一个可以在图像中围绕人类绘制边界框的神经网络。
我最初打算使用 YOLO,因为它已经存在并且完全符合我的要求。但是,我发现通过 YOLO 网络进行单次前向传递需要很多秒,这对于我的目的来说太慢了。由于我的任务要简单得多(YOLO 可以区分许多对象类,而我只对人类感兴趣),而且我不需要那么高的准确性,我决定按照 YOLO 的风格制作一个更小的 CNN,但是层数和参数少得多。
我已经制作了一个具有两个卷积层和两个全连接层的 CNN,它可以在几分之一秒内完成前向传递,并且我正在对来自 COCO 数据集的包含人类的图像进行训练。我现在的问题是,由于网络太小,我不知道它是否能真正执行任务,也不知道在尝试更大的架构之前要训练多长时间。我还担心,由于我使用的是普通笔记本电脑,因此可能需要数月甚至数年才能进行足够的培训。
如果有人能告诉我这类任务的最小网络规模是多少,以及通常需要多少个训练周期,将不胜感激。或者,如果我做出了错误的假设(即,我可能错误地使用了预训练网络,因为它们太慢了),如果有人能指出这一点,那将非常有帮助。