在互聯網領域,基於深度學習的視覺演算法大多偏向於 2D 任務,圍繞著細粒度的模型架構、硬件加速等做了非常多的工作;
在機器人領域,主導的傳統方法已經幾近完備,激光/影像SLAM、三維重建的理論和開源框架也相對成熟,主要需要在理論的深刻理解的基礎上可解釋性地調參,整套框架可以在大多數場景建立一個比較好的基準。
而夾在中間且非常熱門的自動駕駛領域,手握海量數據和多種傳感器,近年逐步深度學習化,並且由於非常依賴 3D 的輸出,也逐漸從純 2D 任務加後處理,轉向模型直出 3D。SLAM、三維重建除了在定位和建圖上保持輸出,如今也在感知任務上有了進一步的探索,一個非常重要且前景廣闊的例子就是對數據的輔助、自動標註。譬如 TELSA AI DAY 上的演示:
深度學習與 SLAM、三維重建的結合,透過對海量數據的持續吸收,以及傳統最佳化方法穩健的保證,在提高標註的效率、規模化動靜態場景重建上,展現了非常有前景的閉環。
一般懂深度學習的不太懂 SLAM、三維重建,反之亦然。對於自身來說,能夠同時了解這兩個領域並且 make it work 的人,是業界的稀缺。目前在兩者結合的研究上,仍然有非常開闊的場景和未解決的問題。