关于深度学习中的优化目标

发表于 2021-09-10 更新于 2024-04-02 分类于 ML 阅读次数： Waline：本文字数： 2.8k 阅读时长 ≈ 3 分钟

前一篇文章提到了L2 norm（weight decay）和以高斯分布为先验的最大后验估计（Maximum a Posteriori，MAP）的等价性，顺手整理一下和深度学习优化目标相关的几个概念。

记朴素的损失函数（loss function）为\(J(w;X,y)\)。一般意义上容易想到的“损失”如均方误差（Mean Square Error，MSE）： \[\mathrm{MSE}=\frac{1}{m}\sum_{i=1}^m \Vert\hat{y}^{(i)} - y^{(i)}\Vert_2^2,\] 其中，假设模型为\(f(x;w)\)，则预测结果\(\hat{y}^{(i)}=f(x^{(i)};w)\). 深度学习/机器学习可以直接优化这个损失函数。

更广义而言，深度学习/机器学习所优化的函数又不限于“损失”，不妨称为优化目标函数（target function），当然也可以称为（广义的）损失函数。针对不同情况，优化目标可以如以下几类：

狭义的损失函数，如MSE；
负对数似然，对应于最大似然估计（Maximum Likelihood Estimation，MLE）；
两个分布的距离，如交叉熵（Cross Entropy）、KL散度（KL Divergence）；
带正则项的目标函数：\(J(w;X,y) + \alpha\Omega(w), \alpha>0\)；
带先验的负对数似然，对应于最大后验估计（MAP）：\(-\ell(w;X,y)-\log p(w)\)。

以上各目标函数都应当最小化以取得最优参数值。

香农熵、交叉熵和KL散度

单点取值对应的自信息： \[I(x) = -\log P(x).\]

随机变量分布的香农熵： \[H(X) = \mathbb{E}_{X\sim P}[I(x)]=-\mathbb{E}_{X\sim P}[\log P(x)].\]

KL散度： \[\mathrm{KL}(P||Q) = \mathbb{E}_{X\sim P}\left[\log\frac{P(x)}{Q(x)}\right] = \mathbb{E}_{X\sim P}\left[\log P(x) - \log Q(x)\right].\]

交叉熵： \[H(P,Q) = -\mathbb{E}_{X\sim P}[\log Q(x)].\]

注意：交叉熵衡量任意两个分布，不绑定于softmax层输出预测概率和one-hot label之间的交叉熵形式。（“花书”注）

因此有 \[H(P, Q) = H(P) + \mathrm{KL}(P||Q).\]

MLE、交叉熵和KL散度的等价性

在机器学习语境下，假设数据服从的经验（empirical）分布为\(\hat{p}(x)\)，模型预测分布为\(q(x;\theta)\).

MLE估计优化目标为 \[\arg\max_\theta \sum_{i=0}^m\log q(x^{(i)};\theta).\] 这等价于在训练数据的经验分布上的期望： \[\arg\max_\theta \mathbb{E}_{X\sim \hat{p}}[\log q(x^{(i)};\theta)].\]

而用KL散度作为优化目标，有： \[\arg\min_\theta \mathrm{KL}(\hat{p}||q)= \arg\min_\theta \mathbb{E}_{X\sim \hat{p}}[\log \hat{p}(x^{(i)}) - \log q(x^{(i)};\theta)].\]

假设数据生成过程固定，则优化目标与\(\log \hat{p}(x^{(i)})\)一项无关，那么该优化目标等价于 \[\arg\min_\theta -\mathbb{E}_{X\sim \hat{p}}[\log q(x^{(i)};\theta)],\] 这与MLE完全等价。

当优化目标为交叉熵\(H(\hat{p}, q)\)时，假设数据生成过程固定，则最小化交叉熵\(H(\hat{p}, q)\)等价于最小化KL散度\(\mathrm{KL}(\hat{p}||q)\)。

因此，MLE、交叉熵和KL散度作为优化目标函数相互等价。

高斯分布假设下MSE和MLE的等价性

MSE的使用场合大多为有监督学习下，对条件概率\(p(y|x;\theta)\)进行建模的情况。因此这里考虑条件似然。以MLE作为目标函数，假设样本i.i.d.，则优化目标为 \[\arg\max_\theta \log p(Y|X;\theta) = \arg\max_\theta\sum_{i=1}^m \log p(y^{(i)}|x^{(i)};\theta).\]

假设模型预测结果为\(\hat{y}(x;w)\)，定义模型输出概率服从以预测结果为均值的高斯分布：\(p(y|x;w)=\mathcal{N}(y;\hat{y}(x;w), \sigma^2)\)，其中方差\(\sigma^2\)给定. 代入MLE优化目标： \[\arg\max_\theta\sum_{i=1}^m \log q(y^{(i)}|x^{(i)};\theta)=\arg\min_\theta\sum_{i=1}^m\frac{\vert\hat{y}^{(i)}(x^{(i)};w) - y^{(i)}\vert^2}{2\sigma^2},\] 其中忽略了一些不含\(w\)的项。

该函数的最优解与MSE最优解完全等价。

简单起见，这里假设label \(y\)为标量。\(y\)为向量的情况下，假设模型输出概率为一多维高斯分布，给定协方差矩阵（如对角阵\(I\)）即可。

带正则项的优化目标与MAP的等价性

MAP优化目标为 \[\arg\max_\theta p(\theta|x)=\arg\max_\theta p(x|\theta)+\log p(\theta).\]

假设先验\(p(\theta)\)服从高斯分布\(\mathcal{N}(\theta; 0, \frac{1}{\alpha}I)\)，则 \[-\log p(\theta)\propto \alpha \theta^\top \theta,\] 即weight decay惩罚项，也即L2 norm正则项。

类似的，假设先验\(p(\theta)\)服从各向同的Laplace分布\(\mathrm{Laplace}(\theta_i; 0, \frac{1}{\alpha})\)，则 \[-\log p(\theta)\propto \alpha \Vert\theta\Vert_1,\] 即L1 norm正则项。

Reference

[1] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016.