编者按:旨在解决在不与环境进行交互的情况下,通过离线数据学习满足安全约束的策略的离线安全强化学习问题。通过概率推理重新定义了离线安全强化学习的任务目标,并引入了非参数化的变分分布以替代参数化策略,从而提高了策略优化的灵活性。此外,采用悲观估计方法推导出了Q值的上下界,通过这些上下界分别估计成本和奖励Q值,以减少因分布外动作引起的外推误差。通过广泛的仿真实验表明,所提出的POCE算法不仅能在高安全系数的样本下学习满足安全约束的高奖励策略,并且其在安全系数较低的样本下也能保证安全线,证明了该算法具有较好的安全性。
《VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcement Learning》
Thirty-seventh Conference on Neural Information Processing Systems,2023.
Jiayi Guan 1,Guang Chen *1,Jiaming Ji 2, Long Yang 2, Ao Zhou 1,Zhijun Li 1, Changjun Jiang 1
*通讯作者
https://github.com/guanjiayi/VOCE
摘要:离线安全强化学习算法有望直接在离线数据集中学习满足安全约束的策略,而无需与环境交互。这种安排在自动驾驶、机器人等采样成本高且存在潜在危险的场景中尤为重要。然而,安全约束和分布外动作的影响使得已有的方法很难在保证安全的同时获得高奖励回报。在这项工作中,我们提出了一种具有保守估计的变分优化算法(Variational Optimization with Conservative Estimation Algorithm(VOCE)) 来解决离线数据集中安全策略的优化问题。具体来说,我们使用概率推理重构离线安全强化学习问题,引入变分分布以使策略的优化更加灵活。随后,我们利用悲观估计方法来估计成本和奖励的Q值,这减轻了分布外动作引起的外推误差。最后,大量实验表明,VOCE算法在多个实验任务中实现了具有竞争力的表现,特别是在安全性方面优于最先进的算法。我们的代码可在https://github.com/guanjiayi/VOCE获取。
关键词:离线强化学习,安全强化学习,分布外动作,变分推理
强化学习算法(RL)在各个领域都取得了令人瞩目的成就,例如机器人控制[1-3]和策略游戏[4-6]领域。 但其受限于需要大量的在线试错,标准强化学习很难应用于危险且高训练成本的场景[7-9]。离线安全强化学习对于解决上述问题是一个有潜力的方法,其在不与环境交互的前提下仅使用预先收集的离线数据学习满足安全约束的策略[10,11]。
由于离线安全强化学习的目标是从离线数据集中学习满足安全约束的策略,这就要求智能体不仅要遵守安全约束,还要考虑分布外动作的影响[12-15]。受分布外动作的影响使得现有算法很难学习满足安全约束的高奖励策略[16]。目前,主要有两个应对上述挑战的方法:一种是基于线性规划[17,18]的方法,另一个是基于探索-评估[19-21]的方法。由于线性规划类方法依赖于F散度或KL散度约束最优分布与样本分布之间的距离[17]。因此,这类方法很难消除OOD动作引起的外推误差[10,11]。另外基于探索-评估方法是在演员-评论家框架下引入保守的Q值估计。尽管探索和评估方法通过选择下界值避免了高估问题,但它们在策略更新期间会提前终止超出约束的轨迹[16]。严格的样本约束是的现有的探索-评估类方法在获取高奖励回报时面临挑战。综上所述,现有方法在满足安全性的同时最大化奖励约束,特别是在处理外推误差的方面面临巨大的挑战。
在这项工作中,为了解决约束策略优化问题并消除由于分布外动作引起的外推误差,我们提出了保守估计的变分优化(VOCE)算法用于解决离线安全强化学习任务。具体来说,首先我们利用概率推理重构了离线安全强化学习任务的目标,并通过变分分布替换参数化策略提高了策略优化的灵活性。此外,为了避免分布外动作引起的外推误差,我们推导出值的上限和下限,并基于这些界限估计成本和奖励的值。最后,我们采用监督学习方法来训练参数化的变化分布的策略网络。本论文的主要贡献如下:(1)我们首次利用概率推理来解决离线安全强化学习的问题,引入非参数变分分布来取代参数化策略,提高了离线设置中优化安全策略的灵活性。(2)我们基于悲观保守估计的方法推导出值估计的上限和下限。进而,我们利用这些界限来估计成本和奖励的值,以避免分布外动作引起的外推误差。(3)我们进行了大量的对比实验,其结果表明VOCE该算法优于最先进的算法,尤其是在安全性方面。
约束马尔可夫决策过程(CMDP)提供了解决RL安全问题的理论框架[22],其中智能体的成本受到安全约束的限制。该框架被元组定义,其中代表状态空间,代表动作空间,代表转移矩阵,其中代表在状态动作对,下转移到状态的概率,代表奖励函数,代表一系列成本,代表折扣系数,代表初始状态分布。策略映射了从状态到动作的概率分布。我们利用去描述策略参数。在安全RL中,最大化奖励且满足安全约束的目标如下:
其中描述的轨迹,是第个成本约束。
在离线强化学习的背景下,我们根据从多个策略中收集的数据集来学习策略,并且不会与环境发生交互。尽管不与环境交互这点带来了很多优点,但是离线数据集并不能覆盖所有的状态动作对转移,而且策略评估步骤实际上利用了单个样本的贝尔曼方程[23]。这使得估计的值容易受到分布外动作的影响,进而严重影响算法的性能[24,25]。如图1所示,在离线背景下,离线策略安全强化学习方法既不能学到高回报的策略也不保证安全。此外,尽管离线强化学习方法在安全的专家数据情况下获得了很高的回报,但由于直接忽略了成本,其很难保证安全。基于上述分析,我们可以得出结论离线强化学习和安全强化学习在从离线数据集中学习满足安全约束的策略方面都面临挑战。因此,设计一种能够学习高回报且满足安全约束的策略的算法至关重要,这是本工作的重点。
图1:Point-Button任务[26]中安全强化学习和离线强化学习算法的奖励和成本曲线。
本节我们详细介绍了具有悲观保守估计的变分优化的离线安全强化学习算法(VOCE)。我们首先通过概率推理重构了离线安全强化学习任务的目标。基于次,我们推导了值估计的上下界,并采用一种悲观保守估计的方法,分别对成本和奖励值进行估计,以消除分布外动作的外推误差。最后我们采用监督学习将变分分布转换为参数化策略。
A. 基于概率推理的离线安全强化学习
从概率推理的角度来看,离线安全强化学习可以被看作是在具有高奖励的状态下观察安全动作的问题。基于文献[26, 27]中的概率推理模型,我们引入一个表示最大化奖励事件的优化变量。假设给定轨迹是最优的概率与累积折扣奖励成正比,无限折扣奖励的方程表示为。由于,我们进一步确认该给定最优轨迹的概率与累积折扣奖励的指数成正比,然后我们将无限折扣奖励的公式重写为。其中是一个温度系数,是的缩写。设是策略下轨迹的概率,则策略下最优性的对数似然可以写成。此外,根据重要性采样和Jensen不等式,我们得到了策略下最优性的对数似然的下界:
式中表示辅助轨迹分布。由于离线安全强化学习不仅需要考虑最大化累积奖励,还需要保证安全性,我们将限制在受限可行分布空间内。根据约束阈值,我们定义安全动作分布空间为:
式中表示满足安全约束的动作分布。参考工作[27]通过对轨迹分布进行因式分解,我们可以将轨迹分布表示为:
式中是初始状态的分布。将方程(4)和(5)代入方程(2)以消除转移,并结合方程(3)的安全动作分布空间,我们得到了离线安全强化学习任务的目标,如命题 3.1 所示。
命题 3.1:基于概率推理的离线安全强化学习任务的优化目标可以定义如下:
命题 3.1 提供了离线安全强化学习任务的优化目标。上述概率推理方法通过引入变分分布来关联对偶变量与策略改进之间的强相关性,从而为优化策略提供了灵活性。此外,该方法将最优策略优化问题解耦为求解最优变分分布和更新参数化策略的两个独立过程。我们将在后面详细介绍这两个更新过程。
B. 具有保守估计的变分优化的离线安全强化学习
目前已经有一些工作基于上述的概率推理思想解决标准强化学习和安全强化学习的策略优化问题[26, 28]。然而,由于在离线任务中受到分布外动作的影响,现有的基于概率推理的RL算法难以解决离线安全强化学习任务。因此,我们采用一种悲观保守估计方法来改进基于概率推理的离线安全强化学习算法,得到了一种具有保守估计的变分优化算法(Variational Optimization with Conservative Estimation algorithm,VOCE)。我们将VOCE分为两个步骤:保守估计的变分优化和参数化策略更新。
(1)具有悲观保守估计的变分优化
保守估计的变分优化步骤的目标是在满足安全约束的同时优化高奖励的最优变分分布。在这一步骤中,我们通过固定策略来最大化变分分布。根据命题3.1,我们将解决最优变分分布的目标写为:
上述变分分布的优化目标可以看作是一种KL正则化的带约束优化问题。然而,由于期望奖励项会因环境的不同,存在不同尺度,因此难以为不同环境设置合适的惩罚系数。因此,我们引入硬约束以替代KL散度的正则化项,并将等式(7)的优化目标重写
式中是变分分布与参数化策略之间的KL散度阈值。为了解决上述约束问题(8),我们将参数化的替换为非参数化形式,以避免由逼近误差导致算法的性能下降[29]。此外,我们应用拉格朗日乘数法将上述约束问题转化为无约束问题。在非参数形式中,由于目标函数是线性的且约束是凸的,因此在等式(8)中所示的约束优化问题是一个凸优化问题。此外,通过温和的假设,我们可以得到等式(9)的强对偶形式。
假设 3.2.(Slater 条件)。存在一种变分分布,满足当前策略信任区域内的安全约束,即,其中。
引理 3.3. 在假设 3.2 的条件下,方程(8)中的原始问题与方程(9)中的无约束问题之间存在强对偶性。
其中是上述多个约束的拉格朗日乘子。根据方程(9)中无约束问题的强对偶性,我们进一步推导出最优变分分布的闭式解,如命题 3.4 所示。证明和讨论详见附录 B.1。
命题 3.4. 方程(9)中满足安全约束的最优变分分布的闭式解如下:
其中。将封闭形式解(10)代入等式(9)并消除同类项,得到如命题 3.5 所示的凸的最小化问题。随后,我们使用等式(11)解出对偶变量和。证明和讨论见附录 B.2
命题 3.5.和是对偶变量,通过下式所示的凸优化问题求解。
命题 3.4 提供了解决给定值和的非参数变分分布的方案。此外,在附录 B.2 中,在强凸性前提下提供了上述闭式解的最优性和唯一性证明。注意,从公式 (10) 可以看出,提供准确的和是准确计算非参数化变分分布的前提和保证。我们可以在在线安全强化学习算法 CVPO [26] 中找到类似的结论,如命题 3.4 和 3.5 中所述。在在线设置中,经验贝尔曼方程直接用于迭代更新值。然而在离线设置中,由于OOD动作的存在会导致和出现明显的外推误差。进而难以根据方程(10)准确计算变分分布。
为消除由于 OOD 动作在评估值时引起的外推误差,我们利用悲观保守估计方法分别估计和。具体地,为了消除外推误差对的影响,我们需要避免对的高估[24]。因此,类似于 CQL [30] 通过在标准贝尔曼误差目标之外额外最小化值来学习函数的保守下界,我们选择通过最小化由产生的未知动作的动作状态对的值来定义迭代奖励函数的值:
其中。在命题3.6中,我们展示了收敛到值估计的下界。然而,相比于值的下界我们对值的下界更感兴趣。因此我们通过在样本分布下引入一个额外的最大化项来加强这个下界。进而奖励值的迭代更新方程(12)可以重写为:
其中,是一个权衡因子。注意,方程(12)和(13)使用经验贝尔曼算子而不是实际的贝尔曼算子。遵循相关工作[23, 31],我们采用浓度特性来估计误差。对于任意的,当概率,采样误差可以表示为:
式中是一个与和有关的浓度系数,其中。表示一个大小为的向量,其包含每个状态动作对数量的平方根倒数。考虑方程(14)中的采样误差,我们可以通过方程(12)推导出在所有动作状态对收敛到下界的条件。命题 3.6 提供了收敛到下界的条件。证明和讨论详见附录 B.3。
命题 3.6. 对于任意,当满足条件,则对于任意经过方程(12)迭代计算得到的值满足以下关系:
因此,如果满足条件,则由方程(12)迭代计算的值满足。进一步,当时,我们基于方程(13)获得了值估计的非逐点下界。证明和讨论见附录 B.4。
命题 3.7. 当时,根据方程(13),我们得到了V值的下界,其满足以下不等式:
因此,如果满足条件,则由方程(12)迭代计算的值满足。
另一方面,考虑到需要满足安全约束,成本值的估计必须满足。基于上述分析,我们选择最大化由生成的对未知动作的动作-状态对的值的惩罚项。因此,我们定义迭代成本函数的值为:
其中是权衡因子。表示未知动作的边际分布。命题 3.8 提供了收敛到不动点的上界,并阐明了收敛到上界的条件。证明和讨论详见附录 B.5。
命题 3.8. 对于任意,当满足条件,则任意,通过方程 (17)迭代的成本值满足以下关系:
因此,当满足条件,则通过方程(17)迭代成本值满足。
(2)参数化策略更新
在通过方程 (10) 求解每个状态的最优变分分布后,我们需要获取策略参数。根据方程 (6) 的目标函数,消除与无关的量,可以得到参数化策略的优化目标:
其中,是温度参数。此外,与无关。因此,上述方程(19)的优化目标可以重写为:
在本节中,我们将 VOCE 与之前的离线安全RL方法在数据集组成,包括不同的动作空间和观察维度等领域进行比较。据我所知,目前离线安全强化学习领域还没有可用的标准化数据集。为了促进这项工作的研究和可复现性,我们使用经过训练的在线策略收集了一系列数据集。数据集的参数设置见附录C.1。
A. 测试任务和基线算法
我们选择了Point-Goal,Car-Goal,Point-Button和Car-Button这四个在安全强化学习领域被广泛采用的任务作为我们这个工作的实验任务。每个任务的详细描述在附录C.2。
图2.不同的行为策略采样数据的奖励和成本分布
BCQ-Lag是一种结合了拉格朗日乘子法和BCQ[24]算法来实现离线约束任务的离线安全强化学习算法。C-CRR是在CRR[35]算法基础上改进的离线安全强化学习算法。它通过引入成本评估值函数和拉格朗日乘子来实现成本约束。Coptidice[10]是一种基于最优平稳分布空间的策略优化方法。上述三种方法是目前离线安全强化学习中最先进的算法。
B. 对比实验结果及分析
为了评估 VOCE 在不同任务和数据样本上的表现,我们收集了来自四个不同任务中三个不同行为的数据样本。我们引入参数来表示样本数据中满足约束条件的轨迹比例。然后我们使用来将样本表征为不同的行为。图2说明了奖励的边际分布和不同值的数据集中样本轨迹的成本。图2的结果表明随着值的增加,平均成本减少,平均奖励增加。图3显示了不同下VOCE的奖励和成本曲线以及最先进的离线安全RL算法在四项任务中的值。图3结果表明VOCE在所有任务中与其他三种方法相比都获得了更高的奖励,任务完成率更高,同时满足或接近安全约束临界点。尤其是在Goal任务中,VOCE始终满足不同领域的安全约束,同时获得更高的奖励回报。在Button任务中,当参数较小时,VOCE努力保障安全;然而,VOCE的成本曲线仍然低于其他三种方法。基于上述结果分析,可以得出结论:VOCE在利用来自多个任务的样本的各种组合时表现出优秀的竞争性能,特别是与目前最先进的算法相比,它在安全性方面表现更出色。
图3.VOCE和基线算法在四个任务中利用不同的采样数据获得的奖励和成本曲线。
C. 消融实验结果及分析
数据集的参数。图4显示在Point-Goal和Point-Button任务中不同的参数值下VOCE的奖励和成本的箱线。图4的结果揭露了一个有趣的现象:在时,VOCE没有达到最高奖励和最低成本,但在0.7到0.9范围内的获得了最高奖励(该范围将根据抽样方法或策略的变化而变化。)。这表明适当地增加数据集中满足约束的轨迹数量有利于VOCE的改进它的回报和降低成本。然而,过度增加满足约束的轨迹,可能会导致奖励减少,甚至成本增加。
图4.相同采样策略和不同系数的消融实验。
回报和成本的保守估计。为了评估保守估计对VOCE的影响,我们对奖励和成本值的保守估计进行了消融实验。图5说明了VOCE、VOCE-Qr和VOCE-Qc在四项任务中的回报和成本。VOCE-Qr代表移除对保守估计的VOCE算法。VOCE-Qc代表移除对保守估计的VOCE算法。图5中的结果表明VOCE-Qr的奖励明显低于VOCE。这表明采用下限保守奖励值的估计有助于消除分布外动作引起的外推误差,从而显着提高VOCE的奖励。此外,图5的结果表明VOCE-Qc的奖励与VOCE相当甚至超过VOCE。然而,在某些任务中,VOCE-Qc的成本超出了成本限制。这表明利用上限成本值的保守估计有助于降低VOCE成本,从而提VOCE的安全性。
图5. 奖励和成本的保守值估计的消融实验。
在本节中,我们将详细阐述离线安全强化学习的相关工作,并详细介绍安全强化学习、离线强化学习和离线安全强化学习三个方面。
(1)安全强化学习。目前,安全强化学习通常使用原始-对偶框架来解决带有约束的优化。PPO和TRPO[36,37]的拉格朗日版本被广泛使用作为底层基线将约束信息与原始目标函数结合起来。CPO[38]是第一个用于安全RL的通用策略搜索算法,它保证了每次迭代都满足近邻约束。然而,二阶方法[38,39]需要二阶信息,因此带来了较高的计算负担。为了解决与泰勒近似和反转高维Fisher信息矩阵相关的近似误差,CUP[40]和APPO[41]等一阶方法实现更好的性能。
(2)离线强化学习。离线强化学习,也称为批量强化学习,其在与环境没有交互的情况下考虑从离线数据集学习策略。策略方针主要有两种策略约束和值正则化来解决离线RL中的分布外动作问题[42-44]。最早提出的批量约束深度学习(BCQ)算法[24]是一种典型的策略约束离线强化学习算法,它采用CVAE来学习行为策略生成模型,并通过最大化值找到最优策略。在此基础上,提出了一系列策略约束算法[45-48],主要限制通过行为探索的动作来实现。另外,由于值正则化方法具有明显的稳定性,因此被广泛研究。Kumar等人提出的保守学习算法[30]可以通过使用简单的值增强标准贝尔曼误差目标来获得保守的值正则化器。随后,提出了一系列值正则化方法[49,6,50],其中通常通过正则化项或裁剪学习来学习保守的值。
(3)离线安全强化学习。离线安全强化学习是利用离线数据集解决离线安全策略下的优化问题。其提出了一种带有约束惩罚的离线安全强化学习算法[16],该算法通过使用约束惩罚项来确定成本值的目标函数和提前终止不安全轨迹来实施政策从而确保安全性。另一方面,离线约束优化算法(COPO)[11]定义了基于线性规划的强化学习问题,其通过监管条款约束最终策略与离线样本行为之间的距离来解决离线安全强化学习算法的问题。此外,该算法设置折扣因子,并将最大化折扣奖励目标更改为最大化平均奖励。与COPO算法类似,通过平稳分布修正估计进行离线策略优化的算法(CoptiDICE)[18]也是利用RL的线性规划方法来求解最优平稳分布而不是梯度策略,且扩大了折扣因子到。
在这项工作中,我们提出了一种针对离线安全强化学习的保守估计变分优化算法(VOCE)来解决使用离线数据集优化离线安全策略的问题。我们引入了概率推理来重新构建离线安全强化学习任务,并引入变分分布替代参数化策略提高了策略优化的灵活性。此外,我们利用值的上限和下限来估计成本和奖励的值,从而减少分布外动作引起的外推误差。最后,大量的比较和消融实验表明VOCE算法在安全性方面优于最先进的算法。
参考文献
联系人:唐老师 |
电话:13917148827 |
邮箱:[email protected] |
点“阅读原文”获取论文
原文始发于微信公众号(同济智能汽车研究所):VOCE:一种具有悲观保守估计的变分优化的离线安全强化学习算法