如何使用 AI 对视频进行深度映射?

人工智能 机器学习 深度学习 映射空间
2021-11-12 05:20:05

老实说,我不知道在哪里提出这个问题,但可以肯定它与人工智能有关。我想构建一个使用相机的应用程序,通过移动它可以计算相机与对象相比的位置 - 对象创建者和移动边缘点。

这意味着如果相机处于静态位置,它只是一张照片。一组彩色像素。如果我们移动相机,我们会计算时间,陀螺仪的值,但最重要的是,我们可以比较相同物体拍摄的两张图像。这样: - 我们可以检测边缘 - 从边缘,我们可以检测哪个比其他的更接近

今天的手机摄像头足够精确,每秒可以创建约 60 张清晰的图像,它应该是足够的资源,可以根据一些说明仅通过移动摄像头来准确创建高分辨率模型(这就是为什么我很惊讶为什么它不存在在一个电话应用程序中)。问题来了。我认为这个想法值得一试,但我只是一名 JavaScript 开发人员。浏览器可以访问摄像头,借助 TensorFlow,我可以使用机器学习来检测边缘,但说实话,我不知道从哪里开始,以及如何一步一步地继续。您能否为我提供一些指导方针,如何理想地创建这个想法?

1个回答

我认为您所指的任务是同时定位和映射(SLAM),特别是运动结构(SfM)。

这些方法通常基于几何约束并且不使用神经网络,但是最近存在一些利用 CNN 的方法(例如这个)。

运动算法的结构是Google ARCore(前 Project Tango)和Apple ARKit的基本组成部分。不幸的是,这些工具包通常提供将元素放置在特定位置的界面,但它们不提供对场景的 3D 重建的访问。

如果你想玩 SfM 算法,我建议你从这个存储库开始,但你可以在网上找到很多其他有价值的教程。