CVPR2022 HiVT | 自动驾驶小白说

tags

password

icon

CVPR2022 HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction

作者是来自香港城市大学、香港城市大学深圳研究院、维多利亚大学和波多黎各大学的研究人员。论文的主要内容是介绍了一种新的层次化向量变换器（HiVT），用于快速准确地预测多智能体的未来运动。这种方法通过将问题分解为局部上下文提取和全局交互建模，有效地对场景中的大量智能体进行建模。同时，提出了一种平移不变场景表示和旋转不变空间学习模块，这些模块能够提取对场景几何变换具有鲁棒性的特征，并使模型能够在单次前向传递中为多个智能体做出准确预测。实验表明，HiVT在Argoverse运动预测基准测试中取得了最先进的性能，并且模型大小较小，能够进行快速的多智能体运动预测。

整体框架

场景表示

向量化实体提取：

从交通场景中提取向量化实体，包括交通智能体的轨迹段和地图数据中的车道段。

每个向量化实体都与语义和几何属性相关联。

相对位置表示：

为了避免使用绝对位置，HiVT模型使用相对位置来表征所有向量化实体的几何属性，这使得场景成为一个完全的向量集合。

例如，一个智能体的轨迹可以表示为 {pti−pt−1i}t=1T，其中 pti∈R2 是智能体在时间步 t 的位置，T 是总的历史时间步数。

{pti−pt−1i}t=1T

pti∈R2

对于车道段 ξ，几何属性由 p1ξ−p0ξ 给出，其中 p0ξ∈R2 和 p1ξ∈R2 分别是车道段的起始和结束坐标。

p1ξ−p0ξ

p0ξ∈R2

p1ξ∈R2

保持空间关系：

为了保持实体之间的相对位置信息，HiVT引入了相对位置向量，例如智能体 j 相对于智能体 i 在时间步 t 的位置向量 ptj−pti，这完全描述了两个智能体之间的空间关系，并且是平移不变的。

ptj−pti

平移不变性和旋转不变性：

通过使用相对位置，场景表示自然保证了对平移的不变性。

为了进一步利用问题的对称性，HiVT引入了旋转不变的交叉注意力模块进行空间学习，这使得模型能够学习对场景旋转不变的局部和全局表示。

结构化表示：

通过将点集转换为向量集，这样的表示保证了任何应用于它的可学习函数都将必然尊重平移不变性。