如何將機器人與強化學習結合？

2021-03-18科學

最近調研了一下Robot Learning領域的熱門文章，總結下來，有兩個很看好的方向。二者都是基於Imitation Learning，分歧在於需不需要RL+仿真訓練。

Imitation Learning(IL)

方法：透過人類的遙控或示教，采集機器人軌跡-感知數據對。直接學習數據對的分布，訓好後根據感知狀態來生成新軌跡。

優勢：無需RL，沒有embodiment gap。

缺點：由於沒有RL，效能不可能超過人類遙控機器人所能達到的效能。而很多工實際上是透過遙控/示教難以實作的，比如人形機器人的奔跑跳躍等動態平衡問題，以及與動態物體的互動。

個人觀點 ：能實作低動態低反饋的大部份任務，比如抓取類。對硬件要求低（一個移動底座+機械臂+平行夾爪即可）。容易與多模態大模型結合，最近大廠的高質素工作層出不窮。預計幾年內能實作初步的商業化，比如處理家務，超市上下貨等等。

相關工作 ：

RT-2: Vision-Language-Action Models

PaLM-E: An Embodied Multimodal Language Model

Dobb·E: An open-source, general framework for learning household robotic manipulation

IL+Reinforcement Learning+Sim2Real

方法：透過動作捕捉得到一系列參考數據，retarget到機器人模型上，在物理仿真環境訓練機器人模仿參考動作，以實作各類任務。

優勢：RL提供了探索能力，上限可以超越人類和參考數據。

缺點：Sim2Real存在embodiment gap。

個人觀點 ：擅長做高動態的敏捷控制，例如奔跑和後空翻。對硬件要求高。在機器狗領域很流行。對於未來的人形機器人潛力很大。

相關工作 ：

Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions

Opt-mimic: Imitation of optimized trajectories for dynamic quadruped behaviors

Learning robust and agile legged locomotion using adversarial motion priors

Learning agile skills via adversarial imitation of rough partial demonstrations