1.4 基于Sequential Network的预测模型

tags

password

icon

基于深度学习的轨迹预测模型, 既能考虑目标的物理特性, 也能考虑目标与环境, 地图的联系, 还能考虑智能体之间的交互关系. 因此不管是在工业界还是学术界, 目前都是轨迹预测的主流方法. 本节将介绍基于深度学习的轨迹预测模型的基本架构.

如图所示, 轨迹预测模型的输入是智能体的历史轨迹和环境信息, 经过模型的特征提取输出目标的预测轨迹. 预测模型的网络类型大体上可以分为:

Sequential Network 序列网络

Graph Neural Network 图神经网络

Generative Model 生成式网络

本节将总体性的介绍Sequential Network的预测模型.

Sequential Network, 是一种线性的、顺序的模型，由一系列层按照顺序堆叠而成. 各层之间按照先后顺序进行堆叠. 前面一层的输出就是后面一层的输入, 通过不同网络层的堆叠, 构建出神经网络.

在轨迹预测中时序网络通常可以作为特征提取层和输出层, 常用的Sequential Network主要有 Recurrent Neural Network (RNN), Convolutional Neural Network(CNN), and Attention Mechanism(AM).

1.4.1 基于RNN的预测模型

Recurrent Neural Network(循环神经网络), 用于考虑时序性场景的神经网络. 它会按照时序处理历史信息, 并输出结果. state encoder,

但是一旦时序稍大, RNN存在度消失或梯度爆炸的问题, 很难学习到序列中存在的长期联系. 为了解决这个问题, 很快发展出了一种特殊的RNN网络: Long Short-Term Memory Network (LSTM 长短期记忆网络). LSTM通过引入三个“门”结构(遗忘门、输入门、输出门)来控制信息的流动, 从而实现了对长期依赖的捕捉.

如图, [1]提出了一个基于LSTM的预测模型, 用于预测自车周围交互目标的多模态轨迹. 该模型提出了6个不同的LSTM decoders，这些decoders与6个特定策略有关. LSTM encoder对历史轨迹的特征进行编码, 使用代表车辆特定操作的one-hot vector(独热编码), 来连接编码器和解码器。LSTM decoders预测二元高斯分布, 以输出未来的轨迹并预测六个操作中每一个的概率。

1.4.2 基于CNN的预测模型

Convolutional Neural Network(卷积神经网络), 主要用于处理具有网格结构的数据(图像), 这种网络通过卷积运算来提取网格数据中的特征.

与RNN不同的是, 预测目标的历史信息, 会处理成栅格图的形式一次性输入给CNN网络. 有些作者认为CNN比RNN更适合于轨迹预测, 因为轨迹具有非常强的时空连续性.

在Argoverse Motion Forecasting Benchmark 2021挑战赛中排行第一的Home预测模型, 是使用CNN网络搭建的.

它生成了目标的未来位置的概率分布热图, 黄色红色部分代表目标未来位置的概率分布, 蓝色是在热图上采样的轨迹点.

home的编码部分:

高精度地图信息栅格化到5个语义通道上:可行驶区域通道, lane边界通道和方向中心线编码的HSV-3通道, 之后使用CNN(卷积+池化)进行编码.

目标的历史轨迹和使用注意力机制进行编码, 得到交互信息.

最终使用转置卷积将两者结合, 并增加输出尺寸.

home的解码部分:

采用多层卷积解码器(convolutional decoder), 它交替使用转置卷积(transpose convolutions)进行上采样(upscaling)和传统卷积(classic convolutions). 目的是逐步增加特征图的空间分辨率并进一步处理这些放大的特征图, 最终输出概率热图.

1.4.3 基于CNN-RNN的预测模型

RNN非常适合处理时间序列信息; 而CNN能够提取空间特征, 包括交通参与者之间的交互信息. 这启发了一些研究人员, 同时利用他们的优势.

[3]使用“盒子”来检测和消除车辆轨迹中的异常值以获得有效的轨迹数据，该数据将被输入到卷积层和最大池层以提取交互感知特征，这些特征将被送入LSTM和完全连接层用于预测。

1.4.4 基于Attention Mechanism的预测模型

注意机制允许人类使用有限的注意力资源来快速从大量信息中提取高价值信息, 深度学习中的注意机制模仿了人类思考的方式. 随着Transformer的成功, 注意力机制已经应用到几乎所有的深度学习领域. 近些年在轨迹预测领域, 基于Transformer的预测模型也占据了绝对主流.

[4] mmTransformer堆叠了3个独立的Transformer, 分别聚合目标历史轨迹，地图信息以及交互信息. 完成编码之后, 特征解码器通过轨迹生成器和轨迹选择器生成轨迹和对应的分数.

参考链接

[1] Multi-modal trajectory prediction of surrounding vehicles with maneuver based LSTMS

[2] T. Gilles, S. Sabatini, D. Tsishkou, B. Stanciulescu, and F. Moutarde, “Home: Heatmap output for future motion estimation,” in Proc. IEEE Int. Intell. Transp. Syst. Conf., 2021, pp. 500–507.

[3] Xie, Guo, et al. "Motion trajectory prediction based on a CNN-LSTM sequential model." Science China Information Sciences 63 (2020): 1-21.

[4] Y. Liu, J. Zhang, L. Fang, Q. Jiang, and B. Zhou, “Multimodal motion prediction with stacked transformers,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2021, pp. 7577–7586.