当前位置: 华文问答 > 科学

如何将机器人与强化学习结合?

2021-03-18科学

最近调研了一下Robot Learning领域的热门文章,总结下来,有两个很看好的方向。二者都是基于Imitation Learning,分歧在于需不需要RL+仿真训练。

Imitation Learning(IL)

方法 :通过人类的遥控或示教,采集机器人轨迹-感知数据对。直接学习数据对的分布,训好后根据感知状态来生成新轨迹。

优势 :无需RL,没有embodiment gap。

缺点 :由于没有RL,性能不可能超过人类遥控机器人所能达到的性能。而很多任务实际上是通过遥控/示教难以实现的,比如人形机器人的奔跑跳跃等动态平衡问题,以及与动态物体的交互。

个人观点 :能实现低动态低反馈的大部分任务,比如抓取类。对硬件要求低(一个移动底座+机械臂+平行夹爪即可)。容易与多模态大模型结合,最近大厂的高质量工作层出不穷。预计几年内能实现初步的商业化,比如处理家务,超市上下货等等。

相关工作

  • RT-2: Vision-Language-Action Models
  • PaLM-E: An Embodied Multimodal Language Model
  • Dobb·E: An open-source, general framework for learning household robotic manipulation
  • IL+Reinforcement Learning+Sim2Real

    方法 :通过动作捕捉得到一系列参考数据,retarget到机器人模型上,在物理仿真环境训练机器人模仿参考动作,以实现各类任务。

    优势 :RL提供了探索能力,上限可以超越人类和参考数据。

    缺点 :Sim2Real存在embodiment gap。

    个人观点 :擅长做高动态的敏捷控制,例如奔跑和后空翻。对硬件要求高。在机器狗领域很流行。对于未来的人形机器人潜力很大。

    相关工作

  • Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions
  • Opt-mimic: Imitation of optimized trajectories for dynamic quadruped behaviors
  • Learning robust and agile legged locomotion using adversarial motion priors
  • Learning agile skills via adversarial imitation of rough partial demonstrations