编者按:准确、高效地预测周围车辆的未来轨迹对自动驾驶中的运动规划至关重要。具备长期轨迹预测能力能够为规划提供有价值的信息资源。尽管已有大量研究致力于提升长期车辆轨迹预测,但需在准确性和计算复杂度之间取得平衡。本文提出了一种结构化的Informer模型,用于实现对目标车辆的高效、准确的长期轨迹预测。具体而言,所提出的模型不仅关注交互车辆轨迹的时空特征,还结合车辆状态变化对轨迹的影响。为降低计算冗余和复杂性、提升内存利用率和预测精度,模型中引入了ProbSparse自注意力机制与注意力蒸馏机制。基于NGSIM数据集的验证表明,与现有先进模型相比,该结构化Informer模型在长期轨迹预测方面具有良好的精度和时间性能。
《Trajectory Prediction for Autonomous Driving Based on Structural Informer Method》
IEEE Transactions on Automation Science and Engineering, pp. 1-12, 18. December. 2023
Chongpu Chen; Xinbo Chen; Chong Guo; Peng Hang
摘要:准确、高效地预测周围车辆的未来轨迹,对于自动驾驶的运动规划至关重要。预测长期轨迹的能力为有效的运动规划提供了有价值的信息。大量的研究对长期车辆轨迹的预测做出了贡献。然而,需要注意的是,长期预测可能需要对准确性和计算复杂性之间的进行权衡。在这篇文章中,我们提出了一种结构化的Informer模型,可以实现对目标车辆的准确、高效的长期轨迹预测。具体而言,所提出的模型不仅考虑了交互车辆轨迹的时空特征,还考虑了车辆状态变化对轨迹的影响。为了降低计算冗余和复杂性,同时提高内存使用率和预测精度,采用了ProbSparse自注意机制和注意力蒸馏机制。使用NGSIM数据集对该模型进行了验证和评估,结果表明,与目前最先进的模型相比,所提出的结构化的Informer模型在TV的长期预测中取得了令人满意的精度和时间成本。
从业人员须知-本研究的动机是解决周围车辆的未来轨迹对自动驾驶汽车运动规划的影响。该模型采用了先进的深度学习模型,其优点是与现有模型相比,该网络能够实现更高的轨迹预测效率和精度。具体实现方法是利用结构化嵌入方法和网络提取目标车辆更有价值的特征,如时空特征和车辆状态特征。新型注意力机制旨在解决传统注意机制在长期预测中计算复杂度呈指数增长的问题。通过对自然驾驶数据集的验证,证实了所提模型的先进性。
关键词:自动驾驶;轨迹预测;注意力机制;Informer模型
无人驾驶被认为是缓解交通拥堵、提高驾驶舒适度的高效技术[1]。目前,自动驾驶汽车(autonomous vehicles, AVs)利用传感器获得的环境信息来进行决策和规划其运动路线,以确保自动和安全驾驶[2][3]。为了保证AV始终做出正确的决策和运动规划,AV需要预测其周围目标车辆的未来轨迹。然而,在复杂的交通场景中,不同交通参与者之间的相互作用和影响,使得对其未来轨迹的预测成为一项具有挑战性的任务,随着交通参与者数量的增加,这一任务变得越来越复杂。此外,传感器误差和噪声显著降低了轨迹预测的准确性。因此,如何在复杂交通环境下准确高效地对目标车辆进行长时间序列预测仍然是AVs面临的一个巨大挑战。目前对目标车辆TV轨迹预测的研究主要集中在三种方法上:基于模型的方法、基于行为意图的方法和基于深度学习的方法[6][7][8]。基于模型的方法主要是将预测的车辆简化为动力学或运动学模型,通过考虑加速度和前轮转弯角度等输入来生成预测的轨迹。由于车辆的某些参数有时不容易获得,因此通常采用贝叶斯滤波算法,如卡尔曼滤波器[9]和切换卡尔曼滤波器[10],与动力学模型相结合,通过估计-预测回路进行多步预测。这些方法的计算效率更高,更适合于短期预测。然而,基于模型的方法往往忽略了某些参数的影响,没有考虑复杂的驾驶操作或交通环境对车辆轨迹的影响,导致无法保证LSTF的准确性。
基于行为意图的方法将车辆视为符合驾驶员行为倾向的个体。车辆的轨迹特征与驾驶员的行为意图相匹配。在预测车辆轨迹时,首先可以识别车辆的变道、转弯等行为意图,并且相应的轨迹预测可以针对每个意图的特征生成对应的轨迹[11][12][13]。有几项研究利用隐马尔可夫模型(HMM)[14]和支持向量机(SVM)[15]提前利用大量数据开发车辆意图识别模型。此外,采用高斯过程拟合飞行器轨迹分布[16],通过拟合高斯过程[17][18][19]得到飞行器的预测轨迹。与基于模型的方法相比,基于行为意图的轨迹预测方法进一步将预测视界扩展了1s到2s。然而,这种方法无法考虑车辆之间的交互效应,从而降低了复杂交通场景下的轨迹预测精度。如今,更多的研究集中在使用深度学习算法进行车辆轨迹预测[20]。递归神经网络(RNN)因其适合于时间序列问题[21][22]而在车辆轨迹预测中很受欢迎。长短期记忆(LSTM)作为RNN的改进版本已经出现,具有更好的训练性能和神经网络表达,导致大量研究使用LSTM来构建车辆轨迹预测模型[23][24]。在seq-to-seq框架中,最近提出的Transformer抛弃了传统RNN网络在时间和空间上对车辆历史轨迹进行节点化的结构,并通过注意机制并行考虑时间序列之间的关系[25][26]。这种基于并行注意机制的Transformer模型极大地提高了对车辆轨迹特征的提取和理解[27]。然而,这种LSTF的并行计算机制导致计算复杂度呈指数级增长。这些提出的神经网络通常需要增加深度来达到更好的预测精度,这也增加了时间成本。
在本文中,由于LSTF预测能力的提高,采用了Informer模型来预测TV的未来轨迹[28]。首先,考虑到车辆轨迹变化时车辆状态的显著特征,我们在Informer的最外层设计了一种车辆-状态-注意力机制。此外,TV的历史轨迹在时间和空间上被嵌入,然后一起输入到Informer中。使用ProbSparse自注意机制代替规范的自注意机制来降低时间复杂度,我们使用自注意力蒸馏机制来降低空间复杂度以接受更长的输入序列。因此,我们提出的新型网络(称为structural Informer)不仅在数据输入方面具有结构性,而且作为一种新的Transformer,其计算过程也是结构性的。本文的主要贡献如下。
1)设计了车辆-状态-注意机制,检测车辆状态的不同组成部分与未来轨迹的关联,提高轨迹预测的准确性和可解释性。
2)通过车辆-状态-注意机制的输入具有时间嵌入性,TV与SVs之间的交互具有空间嵌入性。两者考虑到TV的时间和空间特征,并认为这是输入结构。
3)利用ProbSparse自注意机制和自注意力蒸馏机制进行结构计算,降低了车辆轨迹长期预测的时空复杂度。
本文其余部分组织如下:第Ⅱ节是问题描述和提出的模型。在第Ⅲ节中,使用自然驾驶数据集对提出的模型进行测试和比较。第Ⅳ节对实验结果进行了分析和讨论,第Ⅴ节对本文进行了总结。
A.问题表述
一个典型的公路轨迹预测场景描述如图1所示,其中主车辆为配备轨迹预测模块的AV汽车。影响AV安全性的最重要因素是试图并入AV车道的相邻车辆的行为。因此,对TV未来轨迹的精确预测变得至关重要。同时,TV的轨迹同时受到SVs和AV的影响。因此,所有车辆(包括AV和SVs)的历史轨迹被视为与TV的交互轨迹。SVs结构如图1所示。SV(1)和SV(2)分别位于TV的前面和后面,SV(3)位于AV所在车道的前面。
图 1典型轨迹预测场景
需要注意的是,当需要进行多台机器的轨迹预测时,每个TV的车辆结构可以定义为如图2所示,以实现多车轨迹预测。因此,多车轨迹预测是单车的重复工作。为了更清楚地解释,下面将以单个TV为例描述所提出的模型。假设所有车辆的实时轨迹数据都可以通过集成在AV中的传感器获得,TV是根据传感器输出的目标优先级来确定的。
图 2 车辆结构
本文的目的是训练一个预测器在预测视界内输出TV的轨迹。考虑对于SVs和AV对TV的影响,有必要将它们的历史轨迹也纳入预测器中,因此将预测器的输入定义为:
它用来生成一系列TV的未来轨迹:
其中
表示车辆标签,0表示TV, 1表示AV, 2 ~ 4表示SV的不同位置。
表示历史轨迹的时间戳,M为输入时间范围。
表示预测轨迹的时间戳,N为预测的时间范围。
表示训练所需的车辆状态特征集。选取车辆中心轨迹坐标、、纵向车速、横向车速、纵向加速度、横向加速度作为特征集元素,标志代表车辆类别,如AV、TV和SVs。然后将t时刻所有车辆类别的特征串接在一起,形成如下式所示的特征向量序列:
如图2所示,每个特征向量对应场景中的一辆车,最后只输出包含预测轨迹的TV预测向量。如果车辆不存在,则该车辆的所有输入状态特征都设置为0。
最后,为了便于结构化的Informer的训练,对用于训练的输入历史轨迹和未来轨迹进行归一化操作。以输入轨迹为例,归一化输入序列的计算方法为(8):
其中是序列中的最小矢量,是序列中的最大矢量。
B.结构化的Informer网络
本文利用Transformer模型演变而来的Informer模型来预测TV的运动轨迹。如图3所示的Informer架构是基于编码器-解码器框架[28][29]。编码器-解码器结构分为两部分:编码器层和解码器层。前者接收所有车辆的历史轨迹来分析它们之间的相互作用,包括每个车辆的轨迹点之间的相互作用。然后编码器将这些输入信息转换成特征图,该特征图表示编码器对输入历史轨迹的理解和细化。后一部分接收车辆未来的真实轨迹,这被认为是地面实况。解码器建立特征图与地面实况之间的联系,最终生成未来轨迹。此外,我们在编码器的最外层设计了车辆状态关注层(vehicle-state-attention layer),用于感知车辆状态变化。车辆状态注意层的输出之后是嵌入层,这一层也被解码器所采用。嵌入层的作用是在时间和空间上嵌入输入的车辆轨迹序列。这些组件将在后面的章节中进行详细阐述。
图 3 Informer架构
图3中:左边是编码器,右边是解码器。所有历史轨迹在经过车辆-状态-注意层后被输入编码器。编码器通过嵌入层向输入轨迹添加时间和空间特征。嵌入层的输出连接到两个多头ProbSparse自关注层和前馈层,生成到解码器的特征映射。解码器与编码器类似地处理地面真实轨迹,但解码器具有多头注意层,用于分析来自编码器的特征映射与地面真实之间的联系。最后,由解码器生成预测轨迹。
1)Informer-Vehicle-State-Attention:考虑到历史轨迹中纵向和横向状态的变化会对未来的轨迹产生不同的影响,本文设计并放置了车辆-状态-注意机制在Informer-encoder网络的第一层。其任务是在每个时刻为车辆输入状态的每个部分分配不同的注意力。例如,当TV想要变道时,车辆-注意力机制会将更多的注意力分配给侧向状态,从而使下一个Informer特征提取操作将更多地考虑车辆的侧向运动。注意层是根据下面的等式来计算的
其中为车辆-状态-注意力层权重,函数用作激活函数,将其输出归一化,所有元素都在0到1之间,并求和为1; 是关注权重矩阵,表示对车辆状态的不同关注值; 表示矩阵对应元素的乘法,为注意力分配后的初始历史轨迹。通过观察车辆-状态-注意力层,可以得到网络对输入状态各部分的注意力,这有助于理解网络更关注哪个物理特征。在一定程度上,它解释了预测轨迹与输入历史轨迹之间的连接特征。
2)Informer-Embedding:基于RNN的预测模型可以通过依次计算时间序列的每个节点来分析节点之间的时间关联,与之相反,基于transformer的Informer对输入时间序列的每个节点进行并行处理,因此无法识别节点之间的顺序来分析序列的时间关联[29]。因此,在本文中,编码器的历史轨迹和解码器的目标轨迹被嵌入到一组时间特征中,并融合到输入序列中。
输入轨迹已经被分配了车辆注意力,它包含了5s的历史轨迹信息。由于数据集的采样时间为0.1s,因此输入轨迹有50个时间序列节点。正弦和余弦使用函数嵌入50个节点,如下所示:
式中为嵌入的时间特征矩阵。表示时间序列位置,取的值;表示时间特征向量的维数;是时间特征向量维数,取的值。为常数,为保证每个节点的时间特征向量唯一,其值应远大于,取10000,如[29]所示。时间嵌入过程的结果如图4所示。在此过程中,正弦和余弦函数交替使用,随着时间特征向量的维阶数逐渐增加,函数周期变化的影响逐渐减小,从而为时间序列的每个节点产生不同的纹理特征,目的是便于网络学习时间序列节点之间的依赖关系。
图 4 时间嵌入特征
网络的输入是来自几辆车的轨迹的组合。然而,它缺乏车辆之间相对位置的任何指示,使得它无法被Informer网络学习。文献[30]中,空间嵌入主要考虑TVs与SVs(AV)之间的相对位置。因此,为了使网络能够充分理解车辆之间的相对位置关联,引入空间嵌入来生成车辆之间的相对位置特征。与时间特征相似,这些特征被集成到编码器的输入序列和解码器的真实序列中。
a)空间嵌入结构; b)空间编码结果
图 5 时间嵌入特征
如图5a所示,在笛卡尔坐标中以TV为原点,以原点为起点指向各个SV (AV), SV (AV)相对于TV的位置用矢量表示。在每个时刻,所有车辆都需要以以下方式在空间上嵌入
其中为嵌入的空间特征向量。表示SV (AV)标签,取的值;为各SV在车辆结构中的标准位置,其水平坐标和垂直坐标、垂直坐标设计为。对于每一时刻,所有车辆的通过连接在一起。
是在单个时间步长对所有车辆的空间特征进行拼接向量,然后将该向量沿时间方向平铺,得到最终的空间特征矩阵。图5b为空间特征矩阵的处理过程。将图像的水平方向划分为5个不同的区域,代表5辆车坐标的嵌入结果。垂直方向上的数据分布是将拼接向量沿时间方向平铺的结果。
3)Informer-Encoder:该网络中的编码器接收经过车辆状态关注层和嵌入层的车辆历史轨迹序列。通过分析输入序列中节点之间的相互关系,编码器可以提取特征并生成特征映射.如图3所示,特征映射通过层层从下往上计算:
其中,所有为前馈层(全连接层)的权值;为前馈层的激活函数;下面分别介绍、、、和。
式(16)显示了嵌入层的计算过程,其中输入序列的时空嵌入特征通过加法组合到序列中。为了匹配两个嵌入特征的维数范围,在输入序列上加入一个全连通层,将其维数扩展到与嵌入特征相同。因此,融合序列保留了原始序列的信息,同时也强调了其时空特征,促进了网络识别和利用输入序列节点之间关联的能力。
式(17)表示结构多头ProbSparse自注意层,包括ProbSparse自注意机制、残差连接、层归一化 [31]。是结构化Informer中的多头ProbSparse自关注块,它不仅在时间和空间上模拟了输入序列的交互特征,而且与LSTF中的正则Transformer相比,降低了计算复杂度。由于ProbSparse自关注机制只计算输入序列中节点之间的连接,而不涉及与ground truth序列的关系,因此称为“自关注”。关于模块结构的进一步细节见II-C节。残差连接是连接“输入”和“输出”的加性连接,改善了梯度分散问题,使网络收敛速度更快[32]。对分层网络的输出进行层归一化,以提高网络的泛化性能。
式(18)为前馈层,与规范变压器相同。它使用激活函数进行两次线性投影,然后进行残差连接和层归一化。前馈层用于改善模型的非线性。
编解码器的层堆叠导致内存占用高达[29],在LSTF中占用了大量的空间。为了解决这个问题,结构化Informer模型采用了简单(19)所描述的注意力蒸馏操作。如图6所示,在时间维度(核宽= 3)上进行一维卷积,并伴有激活函数[33]。表示步幅为2的最大池化层,在堆叠一层编码器后,对进行下采样操作至其长度的一半,如图3中的金字塔所示。这种下采样操作将整体空间复杂度降低到,其中是一个很小的常数。由于多头ProbSparse自关注层计算出的特征映射存在冗余,因此在不改变整体特征分布的情况下,蒸馏操作可以提取出优势特征并在下一层生成重点特征映射。这种方法最终实现了高效的内存使用。
图 6 注意蒸馏过程
式(20)和式(21)是式(17)和式(18)的网络结构的复制,通过对网络层的不断提炼和叠加,可以使网络更深,处理更复杂的问题。在本文中,在编码器层之外已经充分提取了输入序列的特征,因此无需在编码器中构建多层。如图3所示,编码器只堆叠了两层。
4)Informer-Decoder:本文框架中的decoder以目标序列作为输入,将目标序列作为ground truth,并作为生成预测轨迹的参考。为了方便动态解码,使用了一个起始标记,这在自然语言处理中被证明是有效的[34]。但是,我们没有使用专用标志作为开始标记,而是选择输入序列的切片部分作为标记。具体来说,基于5s的历史轨迹来预测5s的未来轨迹,我们将已知的3s到5s的轨迹作为标记,与5s的目标轨迹一起馈送给解码器:
其中是历史轨迹的最后3秒作为标记,是目标轨迹。基于串接输入,Inform -decoder可以通过一步过程预测输出轨迹,而不是在常规Transformer中耗时的动态解码过程。确定输入后,对解码器进行如下处理:
其中所有都是前馈层(全连接层)的权值。编码器和解码器中的前馈层具有相似的结构。除了简式(24)中的ProbSparse自注意块外,解码器还具有多头注意块(即简式(25)中的),其输入部分来自编码器中的特征映射,部分来自ProbSparse自注意块。通过对地面真实轨迹与特征映射之间的关系进行建模,多头关注层提高了预测轨迹的精度。第II-C节有更详细的介绍。注意蒸馏操作仅在多头注意层之后执行(即,简式(27))。像编码器堆栈一样,简式(28)到(30)是前一层的复制和堆叠。最后,通过简式(31)中的全连通块生成预测轨迹。
C.注意层
Transformer构建了以注意力为核心的整个编解码模型,解决了长序列问题,完全摒弃了RNNs。这个特性也被结构化的Informer继承了。首先,结构化的Informer模型下的解码器的多头注意机制mha(·)延续了Transformer中的多头注意机制。但是,与Transformer中的自注意机制不同,structural Informer中编码器和解码器的ProbSparse自注意机制通过突出输入序列的重要特征来简化了注意的计算过程,从而在不影响LSTF预测精度的情况下提高了计算效率。下面将分别讨论这两种机制。
1)多头注意层:与规范Transformer一样,结构Informer中多头注意层的输入首先通过线性投影线性变换为查询向量、键向量和值向量。通过给分配权重来计算输出,分配的权重通过与对应的相互作用得到,加权后的描述了输入序列中每个节点之间的关注程度。这种注意力计算也被称为尺度点积注意力[29]。因此,多头注意层使用函数:
其中由线性投影得到;, , ;是的输入矩阵;是线性投影的可训练权值;下标表示第个注意头。注意需要以不同的线性投影权值计算次,通常称为多头注意。这些注意通过连接起来。注意,这种传统的多头注意机制仅用于计算编码器-解码器交互特征,如图7所示。来自解码器的输入序列用于计算,而来自编码器的特征映射用于计算和,从而产生包含编码器和解码器特征的多头关注值。
图 7 多头注意力计算过程
2)多头ProbSparse自关注层:ProbSparse自关注机制只计算编码器和解码器自身输入序列节点之间的连接。以编码器为例,假设 ,,其中是的长度,是的长度,是向量的维数,。在传统的自注意计算过程中,,需要进行点积计算,如简式(32)所示,这需要LSTF中的内存消耗。为了改善这一缺点,本文采用了多头ProbSparse自关注层。首先,在简式(32)中,的输出可以被视为具有、的概率分布,并且简式(31)被重写为
自注意力计算中的主点积对将导致偏离均匀分布,反映出输入序列中存在一些相互强连接的节点。如果接近均匀分布,则输入序列的任意两个节点之间的连接是不显著的,使得自注意力值为可忽略的数值向量V之和,这对于残差输入来说是多余的。显然,相对于查询向量的差异可以区分重要的主点积对。这种差异可以通过Kullback-Leibler散度来衡量:
忽略常数项,查询向量的稀疏度测量定义为:
其中第一项是除以所有值的对数和,第二项是它们的算术平均值。如果得到一个更大的掩模矩阵,它就有一个更离散的自注意力分布,这意味着它更有可能包含主点积对。为了进一步简化稀疏度度量的计算,可以简化式(36)。对于,当时,下列不等式成立。参考文献[28]中给出了更详细的推导。
因此,更简化的掩模矩阵的稀疏度测量计算为:
掩模矩阵用来过滤掉更有意义的。所选的个数设为,其中为调整因子。根据每个对应的掩模矩阵,将其编号为,从高到低依次选择。通过此操作,可以将查询向量重新采样到。因此,在计算自注意力时,计算点积的内存使用量从变为,这对于降低长序列时间序列预测问题的计算复杂度有重要意义。在多头视角下,每个头部都会生成不同的稀疏查询键对,因此多头ProbSparse自注意函数可由下式求得:
此外,根据预测器,输出序列在第次已知,而序列不太可能在实际预测之后的第次得到。为了反映这一特性,在训练过程中应该部分掩盖对解码器的真实序列。因此,在解码器的自注意力计算中加入了掩蔽机制,以覆盖部分点积注意力。对于解码器,只需将式(39)和(40)重写为:
其中为采样后的掩模矩阵。,其中:
这个上三角矩阵可以掩盖未来节点对当前节点的影响。由于在ProbSparse自注意机制中对查询向量进行了重采样,因此对掩模矩阵也需要进行相应的操作。因为是从推导出来的,所以根据在中的分布,从中抽样得到 。
图 8 数据收集时的高速公路鸟瞰图
D.训练模型
为了获得目标车辆更好的预测精度,选择均方根误差(RMSE)作为解码器输出的损失函数:
其中,为输出序列的维数,为真值序列。在每个时间步长计算损失,通过反向传播算法更新所有全连接层和注意力层的权重,以最小化损失。
A.数据
下一代模拟(NGSIM)引用数据集[35]。本研究选取了NGSIM中加利福尼亚州洛杉矶US101高速公路地区的数据。US101高速公路区域长约640m,包含5条车道,第六条车道是数据收集区域内的匝道。这45分钟的数据分为三个15分钟的时段,即上午7:50至8:05、上午8:05至8:20和上午8:20至8:35。如图8所示,数据反映了交通拥堵的累积过程,包括高峰期的拥堵。数据集包含全局或局部车辆纵向、横向位置、车辆纵向速度、加速度、车辆类型、道路ID、车辆ID等,所有这些都是以10 Hz的频率收集的。局部坐标原点位于采集区域的左上角,轴表示车辆的横向位置,从道路的左侧延伸到右侧,轴表示车辆纵向位置,从采集区域的入口延伸到车辆的前方。
从数据集中采样目标车辆的轨迹,并根据构架ID、车辆ID和道路ID以及假设的自动驾驶车辆确定周围车辆。当前方或后方车辆与目标车辆之间的纵向距离超过时,这些车辆不被视为周围车辆,由以下方程式确定:
表 I 网格参数
其中,是目标车辆的车速,是车头时距,是最小安全距离。在式(45)中,考虑了车辆速度对跟车距离的影响,以便有效地确定周围车辆。每辆车的轨迹使用超过10s的视距进行采样,前5秒用于学习和理解,后5秒用于预测。特别地,为了训练目的,3s到5s的数据作为标记与6s到10的预测数据合并。过滤后得到48,675条符合条件的轨迹,其中随机选择38,940条合并到训练集,其余9,735条轨迹组成测试集。
根据式(6),选择数据集中的局部位置坐标作为车辆的位置特征。纵向速度和横向速度都是通过对位置坐标求导得到的,而不是使用数据中的原始纵向速度。同样,纵向和横向加速度都是通过对速度求导得到的。该标志是根据数据集中的车辆ID确定的。如果没有周边车辆,则采用0向量作为空白周边车辆的特征。
B.实施细节
我们在Python 3.7和Ubuntu 20.04环境下使用Pytorch-1.8框架在单个GeForce RTX 3070 GPU上训练模型。Informer结构的参数如表1所示,使用Adam优化器训练网络500次。
C.试验设计
通过以下两个评估指标,基于预测精度和时间成本来评估网络的性能。
轨迹预测误差:在1s、2s、3s、4s和5s的预测时间内,最终预测位置与地面真实值之间的绝对相对误差,称为最终位置误差(FPE);在1s、2s、3s、4s和5s的预测范围内,预测位置与地面真实值之间的平均相对误差,称为平均位置误差(APE)。
时间成本:训练过程中每一次优化权重的时间,以及输入测试数据时网络的预测时间。为了说明网络的性能,我们使用以下典型方法进行比较。
结构化的Informer。本文提出的基于结构化的Informer的轨迹预测方法能够学习目标车辆的历史轨迹以及并联车辆之间的相互作用信息,最终在长序列时间序列预测中生成目标车辆的预测轨迹。
图 9 车辆-状态注意力
结构化的Transformer[27]。采用以编码器-解码器为体系结构的规范结构化Transformer模型,在预测未来轨迹时还可以并行计算输入轨迹的注意力。
结构性长短期存储器[8]。使用长短期存储器构建了一个两层编码器-解码器来处理六辆车的轨迹,目的是为了能够预测它们的相互作用轨迹。
双向长短期存储器[21]。并行使用两个双向长短期存储器,对目标车辆的历史轨迹和车辆的预测变道意图进行编码。第三个双向长短期存储器用作解码器,以输出预测的轨迹。
两个长短期存储器[24]。仅使用一个长短期存储器来预测车辆变道意图,而另一个长短期存储器基于变道意图生成预测轨迹。
单个长短期存储器[23]。采用简单的长短期存储器,利用车辆历史轨迹生成车辆预测轨迹。
A.注意力机制分析
1)Informer-车辆-状态-注意力: 图9显示了目标车辆在结构化Informer中特定历史轨迹的车辆-状态-注意力分布。垂直轴表示车辆轨迹节点,而水平轴的范围为0到5,分别表示车辆的纵向位置坐标、横向位置坐标、纵向速度、横向速度、纵向加速度和横向加速度,如式(6)中所定义。图上的每个点对应于为每个轨迹节点分配给车辆状态的注意力值。图10显示了轨迹的部分车辆-状态曲线。注意力值的分布表明,随着车辆轨迹的变化,注意力机制分配给车辆状态的权重不是恒定的。从这两个图中可以看出,横向速度值相对小于纵向速度值,车辆的横向位移随时间的推移并不显著,导致车辆-状态-注意力机制始终将更多的注意力放在纵向速度上。加速度的注意力机制只集中在加速度变化的某些关键点上。注意力分布随着相应的纵向和横向加速度的变化而反复变化。同样,纵向加速度在某些特征点上比横向加速度获得更大的注意力值。速度和加速度的注意力分布证实了对车辆纵向运动给予更多的注意力会提高车辆此时预测的准确性。研究结果表明,所提出的车辆-状态-注意力机制可以根据车辆状态的变化动态调节注意力分布,以强调更关键的状态变量,从而提高了预测精度并提高了网络的解释能力。
a)纵向速度; b)横向速度
c)纵向加速度; d)横向加速度
图 10 历史轨迹的车辆-状态曲线
2)ProbSparse自注意:图11给出了查询向量Q稀疏度测量过程。图中的纵轴表示查询向量的长度,横轴表示查询向量的维数,图中的点表示查询向量的值。如图11a所示,在达到稀疏之前,查询向量的分布,其中。测量过程是不均匀的,有许多接近零的点,这导致了式(32)中许多无意义的点积运算。为了解决这个问题,本文使用的高效ProbSparse自注意机制在自注意力计算中对查询向量Q进行特征重采样,即稀疏性测量过程。图11b显示了重新采样的和,其中与相比突出了更多的特征区域,缺少了许多接近零的点,从而保留了更多的重要点,省去了点积计算中的大量冗余操作,将长短期存储器中的内存使用从改变为,提高了训练和预测的效率。
a)分布; b)分布
图 11 查询向量稀疏度测量过程
3)多头注意力:图12描述了通过式(32)计算的多头注意力。该图展示了与历史轨迹相关的某个预测轨迹的四头注意力分布。纵轴和横轴分别表示历史轨迹和预测轨迹的节点,图中的点表示注意力值。注意力分布表明,多头注意力机制可以计算和提取预测轨迹和历史轨迹之间的联系。例如图中历史轨迹的近13点和28点附近的注意力值总是较大,说明这些点和附近的点对目标车辆未来的轨迹有着较大的影响。因此,在训练过程中,网络不断地为这些位置附近的点分配更大的权重。这种权重分配的差异表明历史轨迹的每个点与预测轨迹有不同的联系。通过提取这些连接,本文采用的多头注意力机制可以使网络更加关注历史轨迹中的特定点,从而提高预测的准确性。
图 12 多头注意力分布
例如,图中历史轨迹中的近13点和28点附近总是具有较大的关注值,这表明这些点和附近的点对TV的未来轨迹具有重大影响。因此,在训练过程中,网络会不断为这些位置附近的点分配更大的权重。权重分配的这种差异意味着历史轨迹的每个点与预测轨迹具有不同的连接。通过提取这种连接,本文采用的多头注意机制可以使网络更多地关注历史轨迹中的特定点,从而提高预测的准确性。
B.轨迹预测精度分析
表II和III分别列出了结构化的Informer模型和参考模型的FPE和APE值。如在LSTF过程中观察到的,预测精度随着预测时间的增加而劣化,这由最终仿真结果证实。然而,与参考模型相比,所提出的结构化Informer模型表现出更优越的性能。纵向和横向FPE以及APE在每个预测时间都达到最小值。即使在第5秒时,结构化Informer模型的纵向和横向FPE分别为2.93%和2.33%,而纵向和横向APE分别为1.39%和1.21%。结构化Informer模型在网络结构方面增强了Transformer。图13可视化了Informer和Transformer下随机选择的四辆车的完整轨迹的预测比较。如图所示,通过对结构化Informer在预测精度上与Transformer的比较,验证了这种改进的有效性。此外,所提出的结构化Informer模型在预测精度方面显着优于传统的基于LSTM的模型。
图 13 轨迹预测可视化
表 II 预测轨迹的最终位置误差(%)
表 III 预测轨迹的平均位置误差(%)
图14和图15示出了结构化的Informer模型和参考模型在1秒和5秒之间的任何时间的纵向和横向最终位置误差分布。如这些图所示,随着预测时间的增加,结构化的Informer模型的最终位置误差表现出较小的增加。从全局分析来看,结构化Informer的最终位置误差分布范围较小,表明相比LSTF具有更高的稳定性。
图 14 纵向最终位置误差分布
图 15 横向最终位置误差分布
C.轨迹预测时间成本分析
表IV给出了结构化Informer模型和参考模型的时间成本结果,其中包括每个时期的训练时间和每个步骤的预测时间。由于采用了多头ProbSparse自注意机制和注意力蒸馏机制,结构化Informer在训练时间和预测时间方面优于Transformer。此外,与BiLSTM和结构化LSTM相比,由于LSTM中顺序传递的特性,使用LSTM形成编码器-解码器架构更耗时,结构化Informer的并行计算机制提高了计算效率。相反,双LSTM和单LSTM具有更简单的网络结构,以及最低的时间成本,但是它们不能保证LSTF中的预测精度,因为它们不能提取历史和未来轨迹的更多特征。因此,本文提出的结构化Informer模型不仅保证了预测精度,而且在LSTF中实现了较低的时间成本。
表 IV 时间成本
本文介绍了结构化的Informer网络,一种基于Transformer的架构,它可以预测LSTF中自动驾驶中TVs的轨迹。提出了一种车辆状态注意机制,以考虑每个状态变化对TV未来轨迹的影响。与传统的Transformer相比,新的多头ProbSparse自注意机制降低了网络的时间复杂度。此外,注意力蒸馏机制被用来降低网络在编码器-解码器堆叠过程中的空间复杂度。NGSIM数据集上的实验评估表明,结构化的Informer网络在LSTF中对TV的纵向和横向轨迹产生较低的误差和稳定的预测,同时在每个训练和预测步骤上花费更少的时间。虽然验证只在高速公路的情况下,由于有限的数据可用性,所提出的模型预计将在其他情况下表现良好。结果表明,结构化Informer网络在车辆的长期预测(最长5秒)方面具有可靠和出色的性能,为无人驾驶汽车的运动规划提供了一种很有前途的SV轨迹预测解决方案。
参考文献
责编丨高炳钊
联系人:唐老师 |
电话:13917148827 |
邮箱:[email protected] |
点“阅读原文”获取论文
原文始发于微信公众号(同济智能汽车研究所):基于结构化的Informer模型的自动驾驶轨迹预测