我有一个问题,我从水下相机获取图像。与显示的对象相比,该图像相当大,因此它包含的主要是背景(海底)。图像中的对象例如是珊瑚或海绵。
在图像中,我想检测一类对象的确切大小(可能以#pixels 或其他度量单位),假设是一系列图像中的珊瑚。
我应该在这里采取哪种方法?我知道那里有很多工具,我会很感激任何关于从哪里开始和尝试什么的建议,因为我主要使用表格数据而不是图像。
使用 cnn 进行深度学习在这里效果最好吗?
非常感谢你的帮助!
我有一个问题,我从水下相机获取图像。与显示的对象相比,该图像相当大,因此它包含的主要是背景(海底)。图像中的对象例如是珊瑚或海绵。
在图像中,我想检测一类对象的确切大小(可能以#pixels 或其他度量单位),假设是一系列图像中的珊瑚。
我应该在这里采取哪种方法?我知道那里有很多工具,我会很感激任何关于从哪里开始和尝试什么的建议,因为我主要使用表格数据而不是图像。
使用 cnn 进行深度学习在这里效果最好吗?
非常感谢你的帮助!
深度估计的这项任务是计算机视觉中称为 3D 重建的难题和基本问题的一部分。从图像中恢复度量信息有时称为摄影测量。这很难,因为当您从现实世界转移到图像时,您会丢失信息。
具体来说,射影变换这需要你的 3D 点到您的 2D 点通过不保持距离。自从是一个矩阵,计算解决是一个欠定逆问题。这样做的结果是,像素长度通常不会对现实世界的距离有意义。通过考虑 Ames 房间视错觉的强制透视,您可以看到一个简单的示例,说明为什么进行 3D 重建很棘手:
(来源:伊恩·斯坦纳德https://flic.kr/p/8Pw5Rd)
您的视觉处理系统和许多算法使用阴影和平行线等线索来估计深度,但这些都可以被欺骗。通常,您需要知道相机的位置,以及图像中可观察到的已知大小的东西。如果您想从摄影中获得真正准确的长度测量,则必须在数据收集过程中进行计划(将这些棋盘包含在相机视野中非常有帮助)。
这里有一堆经过充分研究的子问题:
关于他们是否将场景几何恢复到投影变换、仿射变换或欧几里得变换,存在一些变化。
这是一个很好的关于 3D 重建主题的论文和软件列表。一本经典的参考书是:
哈特利、理查德和安德鲁齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社,2003 年。
本文给出了一个使用 CNN 从单个 RGB 图像进行深度估计的示例(代码也可用):
莱纳、伊罗等人。“使用完全卷积残差网络进行更深层次的深度预测。” 3D Vision (3DV),2016 年第四届国际会议。IEEE,2016 年。