arXiv在2021年11月16日上传论文“GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving“,作者来自法国Valeo公司和MINES ParisTech大学。
-
LBC(“Learning by cheating“. CoRL, 2019) -
IAs(即 前面提到的implicit affordances方法) -
Transfuser+(“Multimodal fusion transformer for end-to-end autonomous driving“. CVPR 2021) -
World on Rails(“Learning to drive from a world on rails“. ICCV 2021)
-
如果演示数据不是持续最优的,例如,由于给定任务某些方面的专家性能较低,则会出现方法的第一个限制,在奖励函数中引入噪声。
-
方法的第二个限制是在一些困难的环境中出现预热阶段。这种预热阶段可以看作是分布转移的结果。
-
方法的第三个限制是演示和探索智体收集的一些常见动作奖励不一致。这会导致来自离线演示智体的数据与来自在线RL探索智体的经验之间存在某种差异。
原文始发于微信公众号(焉知智能汽车):GRI:通用强化模仿学习,用于视觉自动驾驶