2.1 场景表征的坐标系 | 自动驾驶小白说

2.1.1 以场景为中心的坐标系

Scene-Centric, 即所有目标, 地图的坐标都从全局坐标系, 转换到场景的局部坐标系下.

Scene-Centric是最容易想到的表征方式, 会在场景内选取一个坐标系原点. 所有目标在同一个坐标系下, 使场景信息天然具有了全局视野. 很方便模型去学习一些场景内的共有的特征, 比如固定的区域信息(人行道). 另外, Scene-Centric的计算非常简单.

缺点是不具备视角不变性, 即如果更换了视角, 数据是否保持不变. 因为每一帧的原点可能都在变, 不同帧的输入数据和预测结果无法相互比较.

相较于Scene-Centric, Agent-Centric就是每个预测目标需要的场景信息, 都会转换到以当前agent为原点的局部坐标系下.

Agent-Centric显然是为了解决预测目标agent自身关注度不够的问题, 将场景内相关的环境, 其他agent目标信息斗转换到预测目标agent的视角下, 易于模型去理解相互之间交互关系, 能够生成更高质量的预测轨迹. 并且Agent-Centric是具备视角不变性的.

但是缺点也是显而易见的: 如果我们预测10个目标, 就需要进行10次坐标转换. 这带来了大量的计算量和数据存储量, 会显著拖慢模型运行速度. 另外, 局部坐标系下缺乏了共同的全局视野, 这也增加了模型理解场景信息的难度.

这两种方法的优缺点是相互对立的, 常见的方法是: 对于与自动驾驶车辆存在交互的重要目标agent, 采取Agent-Centric方式; 而场景内的其他普通agent, 采取Scene-Centric方式.

相对坐标系统

前面几节提到的方法, 考虑了视角不变性或者是空间不变性. 但是不同帧之间的场景数据, 虽然时间窗口会变化, 但是明显存在重复的时间窗口. 是否可以保证不同帧表征结果的时空不变性呢?

CVPR2023论文QCNet[2]提出了一种Query-Centric具有时空不变性的表征方法, 极大的提升了预测模型的性能.

如图, 假设模型需要对agent的历史3秒轨迹进行编码. 左图是t时刻下[t-2,t]的历史状态信息, 右图是t+1时刻下[t-1,t+1]的历史状态信息.

显然这两帧数据的时间窗口中, [t-1,t]的数据是完全重复的. 但是我们却每一帧都会对这些重复的数据重新进行坐标转换和编码.

如果在一个局部时空场景内, 状态量引入第4维时间数据:. 其中代表agent的序号, 坐标由组成, 航向角, 时间. 代表第个agent在时刻的坐标.

假设和是场景中的两个坐标, 那么它们的

实际上就是旋转平移到了为基点的坐标系(对应上图的绿色箭头和蓝色箭头). 得到了这些相对状态数据, 就可以进行相应的编码, 这两个状态的相对编码结果记为

特别的, 如果是不包含时间的静态数据(比如地图数据), 就去掉时间维保留3维状态.

有了相对编码结果之后, 下一帧就不需要重新进行完整编码了, 在两帧共有的时间窗口的编码信息, 可以直接使用历史编码信息.

这样将基于注意力机制的编码复杂度从下降到了

不过这种做法需要对每个agent的每个时间步的状态, 都计算相对位置关系. 虽然可以重复利用历史信息, 但是去计算这些信息的计算消耗是比较大的.

使用Frenet坐标系也可以实现视角不变性, 将在下一节详细介绍.