问一下，我是搞深度学习的，三维重建 + 深度学习 + slam 前景到底是什么？

2021-11-15科学

在互联网领域，基于深度学习的视觉算法大多偏向于 2D 任务，围绕着细粒度的模型架构、硬件加速等做了非常多的工作；

在机器人领域，主导的传统方法已经几近完备，激光/图像SLAM、三维重建的理论和开源框架也相对成熟，主要需要在理论的深刻理解的基础上可解释性地调参，整套框架可以在大多数场景建立一个比较好的基准。

而夹在中间且非常热门的自动驾驶领域，手握海量数据和多种传感器，近年逐步深度学习化，并且由于非常依赖 3D 的输出，也逐渐从纯 2D 任务加后处理，转向模型直出 3D。SLAM、三维重建除了在定位和建图上保持输出，如今也在感知任务上有了进一步的探索，一个非常重要且前景广阔的例子就是对数据的辅助、自动标注。譬如 TELSA AI DAY 上的演示：

在重建后的场景上多相机 3D/4D 标注

Clip 过一遍多任务的离线大模型，通过对静态场景三维重建、对动态物体建模自动标注、构造仿真场景

深度学习与 SLAM、三维重建的结合，通过对海量数据的持续吸收，以及传统优化方法稳健的保证，在提高标注的效率、规模化动静态场景重建上，展现了非常有前景的闭环。

一般懂深度学习的不太懂 SLAM、三维重建，反之亦然。对于自身来说，能够同时了解这两个领域并且 make it work 的人，是业界的稀缺。目前在两者结合的研究上，仍然有非常开阔的场景和未解决的问题。