3.2 Regression Loss 回归损失 | 自动驾驶小白说

3.2.1 L1 Loss 和 L2 Loss

3.2.1.1 L1 Loss: 平均绝对误差 (Mean Absolute Error, MAE)

平均绝对误差计算预测值与实际值之差的绝对值，然后求平均。MAE 的公式为：

与 MSE 相比，MAE 对异常值的敏感度较低，因为它使用的是绝对值而非平方。

3.2.1.2 L2 Loss: 均方误差 (Mean Squared Error, MSE)

均方误差是最常见的回归损失函数之一，它计算预测值与实际值之差的平方，然后求平均。MSE 的公式为：

其中，是实际值，是预测值，是样本数量。MSE 对于异常值非常敏感，因为差值的平方会放大误差的影响。

3.2.1.3 优缺点对比

简而言之，使用MSE更容易求解，但使用MAE对异常值的鲁棒性更强。

如上图, 左图是没有异常值时, 右图是存在一个异常值时. 很明显MSE的会放大异常值的误差, 这代表采用MSE的模型会更重视数据中的异常值. 也就是说, 如果异常值是正常存在的数据, 更适合使用MSE. 但是如果数据中的异常值, 是由于各种原因不应该出现的, 那么MAE会抑制这种错误带来的影响.

不过使用MAE损失的一个大问题是，它的梯度在整个过程中都是相同的，这意味着即使损失值很小，梯度也会很大。这不利于学习。为了解决这个问题，我们可以使用动态学习率，当我们接近最小值时，动态学习率会降低。MSE在这种情况下表现良好，即使在固定的学习率下也会收敛。MSE损失的梯度对于较大的损失值很高，随着损失接近0而降低，使其在训练结束时更加精确.

3.2.2 Smooth L1 Loss: Huber Loss

Huber Loss 结合了上述L1, L2 loss的特点, 定义如下:

与MSE相比，Huber Loss对数据中的异常值不那么敏感。它在0处也是可微分的。它基本上是绝对误差，当误差很小时，它变成二次误差。误差必须有多小才能使其变为二次型取决于可以调整的超参数𝛿（delta）。当𝛿接近0时，Huber Loss接近MSE，当𝛿接近∞（大数）时，Huber Loss接近MAE.

因此，它结合了MSE和MAE的良好性能, 它比MSE对异常值更稳健, 比MAE更易在极值点附近收敛。然而，Huber损失的问题是，我们可能需要训练超参数，这是一个迭代过程。