4.3 GameFormer:基于Level-K博弈的预测和规划网络
category
type
status
slug
date
summary
tags
password
icon
针对多车交互问题, GameFormer在M2I的基础上, 受Level-K博弈启发构造成了分层交互结构的预测和规划网络.
GameFomer的encoder部分较为常规: 对agent历史信息, 环境信息编码之后, 用transformer进行了整体编码. 本节将主要介绍它的交互编译decoder设计.
GameFomer的encoder部分较为常规: 对agent历史信息, 环境信息编码之后, 用transformer进行了整体编码. 本节将主要介绍它的交互编译decoder设计.
4.3.1 Level-K博弈
在纳什均衡中,所有玩家都假设其他玩家都是完全理性的,并且能够预测到其他玩家的最优策略。然而,在实际中,玩家的理性程度和预测能力是有限的,这导致他们可能无法总是达到纳什均衡。
Level-K博弈尝试解决传统博弈论中纳什均衡(Nash Equilibrium)所面临的一些问题。通过引入不同层次的思考来模拟这种有限理性。在这个模型中,玩家被分为不同的“级别”(level),每个级别的玩家对其他玩家的行为有不同的假设和预测。例如:
- Level-0玩家不考虑任何其他玩家的策略,直接选择自己的最优策略。
- Level-1玩家假设其他玩家都是Level-0玩家,并基于这个假设选择自己的最优策略。
- Level-2玩家假设其他玩家都是Level-1玩家,并基于这个假设选择自己的最优策略。
- 以此类推,每个更高级别的玩家都假设其他玩家是比自己低一个级别的玩家使用,并基于这个假设进行策略选择。
这个其实就是上一节我们讲的主从博弈的链式版本, 级别越小, 在博弈中越占据主动性.
4.3.2 GameFormer中的交互博弈架构
GameFormer受Level-K博弈理论的启发, 将其融入到了预测网络中.
如图, 作者设计了这样的交互架构: 在decoder中, 会重复次预测轨迹. 每一次预测轨迹之前, 会将上一次其他车辆的预测轨迹结果作为模型的输入:
- 第一层()的输入是初始模态initial modality query;
- 第层()的输入是上一层(), 其他agent的预测结果;
- 每一层都会共享agent历史信息, 环境信息等编码结果;
用公式表达, 第个agent的第层优化目标可以写成:
- 代表loss函数
- 代表第个agent的第层的策略分布
这样的设计, 是为了网络在生成agent预测轨迹时, 能够迭代的考虑其他agent未来轨迹对自己的影响.
虽然模型可能确实是从level-k博弈理论受的启发, 但是我们可以看得出来其实并没有很明显的联系.
4.3.3 level-k interaction decoder实现
4.3.3.1 level-0 decoding
第0层decoding时, 会初始化一个作为初始modality embedding, 其中是agent数量, 是模态数量, 是feature维度. 是为了代表未来预测的所有模态轨迹.
- 将与场景编码信息组成作为query;
- 将场景编码信息作为 key&value;
- 进行cross-attention, 得到level-0层的query content.
接着用两个MLP分别将query content解码为:
- 所有轨迹的参数, 其中是预测总时间步, 每一个时间步对应着GMM混合高斯分布的4个参数:
- 所有轨迹的分数
4.3.3.2 level-k Decoding
有了上一层level的轨迹参数分布, 轨迹分数,query content 的输出, 开始迭代进行level-k Decoding.
首先对上一级的轨迹进行max-pooling提取特征并重新编码为, 接着在模态维度与轨迹分数进行了加权求和得到Future Encoding .
上一级的预测轨迹代表agent的未来预测信息, 这一步去掉了模态维度, 主要是为了根据不同模态轨迹的分数权重, 提取未来轨迹特征.
接着对未来轨迹特征进行了self-attention, 学习不同agent之间未来轨迹的交互, 得到了学习之后的.
然后Concatenate环境编码信息得到本级更新后的完整编码信息:, 它包括了上一级输出的未来轨迹信息. 为了避免本级预测轨迹受到上一级的干扰, 使用了mask策略遮蔽了agent自身的上一级预测轨迹, 使得每个agent只能读取其他agent上一级的输出轨迹.
- mask之后的完整编码信息作为作为 key&value;
- 上一级的query content与上一级轨迹提取模态特征之后的编码信息相加, 作为本级的query
- 进行cross-attention, 得到本级更新后的query content:
接着与level-0一样, 用两个MLP分别将本级query content解码为:
- 所有轨迹的参数, 其中是预测总时间步, 每一个时间步对应着GMM混合高斯分布的4个参数:
- 所有轨迹的分数
4.3.4 Loss
GameFormer的loss设计包括imitation loss和interaction loss.
4.3.4.1 Imitation loss
使用负对数似然函数构造Imitation loss, 采用了WTA赢家通吃策略. 取接近GT真值的模态轨迹计算loss:
- 前半部分是GMM混合高斯分布的loss:
- 是m模态轨迹t时刻的均值
- 是m模态轨迹t时刻的方差
- , , 是指预测均值与GT真值的偏差;
- 是指最佳模态轨迹与GT真值之间的交叉熵损失;
4.3.4.2 interaction loss
交互loss基于两个轨迹之间的最小欧式距离计算, 不再赘述
完整的loss写作:
参考链接
- GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction and Planning for Autonomous Driving
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...