3.2 Regression Loss 回归损失

category
type
status
slug
date
summary
tags
password
icon
网络最终需要Loss Function来计算输出轨迹的损失进而梯度回传. 预测是一个多模态概率分布问题, 要考虑不同模态下的预测轨迹的概率分布. 预测中常用的Loss Function用回归loss, 分类loss以及轨迹碰撞, 平滑性等loss.
本节将介绍回归损失, 如果把轨迹轨迹简单的看做回归问题: 预测轨迹一定要回归到真值附近, 那么就会有回归损失. 回归损失函数是机器学习中回归任务的核心,用于衡量模型预测值与实际值之间的差距。选择合适的损失函数对于模型的性能至关重要。

3.2.1 L1 Loss 和 L2 Loss

3.2.1.1 L1 Loss: 平均绝对误差 (Mean Absolute Error, MAE)

notion image
平均绝对误差计算预测值与实际值之差的绝对值,然后求平均。MAE 的公式为:
与 MSE 相比,MAE 对异常值的敏感度较低,因为它使用的是绝对值而非平方。

3.2.1.2 L2 Loss: 均方误差 (Mean Squared Error, MSE)

notion image
均方误差是最常见的回归损失函数之一,它计算预测值与实际值之差的平方,然后求平均。MSE 的公式为:
其中, 是实际值, 是预测值, 是样本数量。MSE 对于异常值非常敏感,因为差值的平方会放大误差的影响。

3.2.1.3 优缺点对比

简而言之,使用MSE更容易求解,但使用MAE对异常值的鲁棒性更强。
notion image
如上图, 左图是没有异常值时, 右图是存在一个异常值时. 很明显MSE的会放大异常值的误差, 这代表采用MSE的模型会更重视数据中的异常值. 也就是说, 如果异常值是正常存在的数据, 更适合使用MSE. 但是如果数据中的异常值, 是由于各种原因不应该出现的, 那么MAE会抑制这种错误带来的影响.
notion image
不过使用MAE损失的一个大问题是,它的梯度在整个过程中都是相同的,这意味着即使损失值很小,梯度也会很大。这不利于学习。为了解决这个问题,我们可以使用动态学习率,当我们接近最小值时,动态学习率会降低。MSE在这种情况下表现良好,即使在固定的学习率下也会收敛。MSE损失的梯度对于较大的损失值很高,随着损失接近0而降低,使其在训练结束时更加精确.

3.2.2 Smooth L1 Loss: Huber Loss

notion image
Huber Loss 结合了上述L1, L2 loss的特点, 定义如下:
与MSE相比,Huber Loss对数据中的异常值不那么敏感。它在0处也是可微分的。它基本上是绝对误差,当误差很小时,它变成二次误差。误差必须有多小才能使其变为二次型取决于可以调整的超参数𝛿(delta)。当𝛿接近0时,Huber Loss接近MSE,当𝛿接近∞(大数)时,Huber Loss接近MAE.
因此,它结合了MSE和MAE的良好性能, 它比MSE对异常值更稳健, 比MAE更易在极值点附近收敛。然而,Huber损失的问题是,我们可能需要训练超参数,这是一个迭代过程。

3.2.3 负对数似然损失(Negative Log Likelihood Loss, NLL)

3.2.3.1 定义

对于一组观测数据 和一个统计模型,该模型由参数 控制,似然函数 定义为在给定参数 的条件下,观测到数据 的概率:
如果观测符合独立分布, 则观测到数据的联合概率可以写成:
而我们的目的就是: 寻找一个最佳的参数 , 使得观测到该组数据的概率最大, 也就是使最大. 求极值点一般都需要求导数, 但是连乘的求导很麻烦. 我们使用单调递增函数使得连乘变成连加, 就得到了对数似然函数:
在机器学习中, 我们一般定义是loss损失, 也就是越小越好, 因此我们将对数似然加上负号. 假设我们有一个分类问题, 有 个样本, 每个样本的输入为 , 对应的真实标签为 . 我们计算样本的平均负对数似然值作为损失:

3.2.3.2 高斯分布的负对数似然损失

当数据分布符合高斯分布时, 同样可以类似的计算负对数似然损失.
  • 一元高斯分布
notion image
我们对其取:
最后取负号便得到了一元高斯负对数似然损失:
  • 二元高斯分布
notion image
二元高斯分布的定义如下, 其中代表的相关系数. 以轨迹预测为例, 如果把预测轨迹点在真实点上X,Y方向的偏差假设为高斯分布, 那么X与Y一定是有联系的, 而不是毫不相关.
不同参数下的高斯分布图示如下:
notion image
对其取对数:
最后取负号便得到了二元高斯负对数似然损失

3.2.3.3 拉普拉斯分布的负对数似然损失

notion image
还有一种常见的拉普拉斯分布, 二元定义如下:
他的负对数似然损失为:

3.2.3.4 优缺点对比

我们观察他们的定义, 可以发现高斯分布对应着MSE, 因为它包含了平方项; 而拉普拉斯分布对应着MAE, 因为它包含了绝对值. 这也对应着他们的优缺点.
高斯分布的负对数似然损失:
优点:
  • 在loss较大时, 梯度较大能够快速收敛。
缺点:
  • 对异常值(outliers)敏感,因为平方误差会放大异常值的影响。
 
拉普拉斯分布的负对数似然损失:
优点:
  • 对异常值有较好的鲁棒性,因为绝对误差对异常值的惩罚小于平方误差。
  • 在误差服从拉普拉斯分布的假设下,拉普拉斯负对数似然损失能够提供良好的性能。
缺点:
  • 相比于高斯负对数似然损失,其梯度较小,可能导致模型收敛速度较慢。

参考链接

  • Autonomous Driving: Object Detection using Neural Networks for Radar and Camera Sensor Fusion
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...