VOCE：一种具有悲观保守估计的变分优化的离线安全强化学习算法

AI 10个月前 admin

47 0 0

编者按：旨在解决在不与环境进行交互的情况下，通过离线数据学习满足安全约束的策略的离线安全强化学习问题。通过概率推理重新定义了离线安全强化学习的任务目标，并引入了非参数化的变分分布以替代参数化策略，从而提高了策略优化的灵活性。此外，采用悲观估计方法推导出了Q值的上下界，通过这些上下界分别估计成本和奖励Q值，以减少因分布外动作引起的外推误差。通过广泛的仿真实验表明，所提出的POCE算法不仅能在高安全系数的样本下学习满足安全约束的高奖励策略，并且其在安全系数较低的样本下也能保证安全线，证明了该算法具有较好的安全性。

本文译自：

《VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcement Learning》

文章来源：

Thirty-seventh Conference on Neural Information Processing Systems，2023.

作者：

Jiayi Guan 1，Guang Chen *1，Jiaming Ji 2, Long Yang 2, Ao Zhou 1，Zhijun Li 1, Changjun Jiang 1

*通讯作者

作者单位：

1同济大学，2北京大学

原文链接：

https://openreview.net/pdf?id=sIU3WujeSl

代码链接：

https://github.com/guanjiayi/VOCE

摘要：离线安全强化学习算法有望直接在离线数据集中学习满足安全约束的策略，而无需与环境交互。这种安排在自动驾驶、机器人等采样成本高且存在潜在危险的场景中尤为重要。然而，安全约束和分布外动作的影响使得已有的方法很难在保证安全的同时获得高奖励回报。在这项工作中，我们提出了一种具有保守估计的变分优化算法(Variational Optimization with Conservative Estimation Algorithm(VOCE)) 来解决离线数据集中安全策略的优化问题。具体来说，我们使用概率推理重构离线安全强化学习问题，引入变分分布以使策略的优化更加灵活。随后，我们利用悲观估计方法来估计成本和奖励的Q值，这减轻了分布外动作引起的外推误差。最后，大量实验表明，VOCE算法在多个实验任务中实现了具有竞争力的表现，特别是在安全性方面优于最先进的算法。我们的代码可在https://github.com/guanjiayi/VOCE获取。

关键词：离线强化学习，安全强化学习，分布外动作，变分推理

Ⅰ 引言

强化学习算法(RL)在各个领域都取得了令人瞩目的成就，例如机器人控制[1-3]和策略游戏[4-6]领域。但其受限于需要大量的在线试错，标准强化学习很难应用于危险且高训练成本的场景[7-9]。离线安全强化学习对于解决上述问题是一个有潜力的方法，其在不与环境交互的前提下仅使用预先收集的离线数据学习满足安全约束的策略[10,11]。

由于离线安全强化学习的目标是从离线数据集中学习满足安全约束的策略，这就要求智能体不仅要遵守安全约束，还要考虑分布外动作的影响[12-15]。受分布外动作的影响使得现有算法很难学习满足安全约束的高奖励策略[16]。目前，主要有两个应对上述挑战的方法：一种是基于线性规划[17,18]的方法，另一个是基于探索-评估[19-21]的方法。由于线性规划类方法依赖于F散度或KL散度约束最优分布与样本分布之间的距离[17]。因此，这类方法很难消除OOD动作引起的外推误差[10，11]。另外基于探索-评估方法是在演员-评论家框架下引入保守的Q值估计。尽管探索和评估方法通过选择下界值避免了高估问题，但它们在策略更新期间会提前终止超出约束的轨迹[16]。严格的样本约束是的现有的探索-评估类方法在获取高奖励回报时面临挑战。综上所述，现有方法在满足安全性的同时最大化奖励约束，特别是在处理外推误差的方面面临巨大的挑战。

在这项工作中，为了解决约束策略优化问题并消除由于分布外动作引起的外推误差，我们提出了保守估计的变分优化(VOCE)算法用于解决离线安全强化学习任务。具体来说，首先我们利用概率推理重构了离线安全强化学习任务的目标，并通过变分分布替换参数化策略提高了策略优化的灵活性。此外，为了避免分布外动作引起的外推误差，我们推导出值的上限和下限，并基于这些界限估计成本和奖励的值。最后，我们采用监督学习方法来训练参数化的变化分布的策略网络。本论文的主要贡献如下：（1）我们首次利用概率推理来解决离线安全强化学习的问题，引入非参数变分分布来取代参数化策略，提高了离线设置中优化安全策略的灵活性。（2）我们基于悲观保守估计的方法推导出值估计的上限和下限。进而，我们利用这些界限来估计成本和奖励的值，以避免分布外动作引起的外推误差。（3）我们进行了大量的对比实验，其结果表明VOCE该算法优于最先进的算法，尤其是在安全性方面。

Ⅱ 基础概念

约束马尔可夫决策过程（CMDP）提供了解决RL安全问题的理论框架[22]，其中智能体的成本受到安全约束的限制。该框架被元组定义，其中代表状态空间，代表动作空间，代表转移矩阵，其中代表在状态动作对,下转移到状态的概率，代表奖励函数，代表一系列成本，代表折扣系数，代表初始状态分布。策略映射了从状态到动作的概率分布。我们利用去描述策略参数。在安全RL中，最大化奖励且满足安全约束的目标如下：