在我的论文中,我处理了计算机如何识别乐高积木的问题。通过多目标检测,我选择了深度学习方法。我还查看了现有的乐高积木图像训练集并尝试对其进行优化。
我的方法
通过在专门生成的图像数据集(使用 Blender 创建)上使用 Tensorflow 的对象检测 API,我能够在一张照片中检测到 73.3% 的多个乐高积木。
我注意到的主要问题之一是,我试图区分三种不同的 2x4 积木。然而,颜色很难区分,尤其是在不同的光照条件下。更好的方法是将 2x4 与 2x2 和 2x6 乐高积木区分开来。
此外,我注意到训练集最好由“正常”和合成生成的图像组成。合成图像给出了拍摄图像没有给出的照明条件、背景等方面的变化。但是,当使用经过训练的神经网络时,会检查照片而不是合成图像。因此,照片也应该包含在训练数据集中。
最后一点可能会带来更好的结果,那就是你用展示不止一块乐高积木的图片来训练神经网络。因为这正是神经网络在使用时所需要的。
- 还有其他方法可以改进吗?
(你能看到神经网络进一步改进的潜力吗?你会如何解决这个问题?我的任何方法是否看起来很糟糕?你如何解决这个问题?)