反向传播

首页 . 理学 . 统计学 . 大数据统计分析 . 深度神经网络 . 梯度下降 . 反向传播

/back propagation;BP/

条目作者朱雪宁

朱雪宁

最后更新 2024-04-26

浏览 210次

最后更新 2024-04-26

浏览 210次

0 意见反馈条目引用

一种与最优化方法结合使用的，通过逐层计算损失函数相对于神经网络权值参数的梯度，来训练人工神经网络的快速计算偏导数的方法。

英文名称: back propagation;BP

所属学科: 统计学

简史

反向传播是由20世纪60年代美国计算机学家H.J.凯利^[注]提出的控制理论和1961年美国计算机学家A.E.布赖森^[注]提出的理论衍生而来的。这一方法及其在神经网络中的普遍使用是在美国认知心理学家D.E.鲁梅尔哈特^[注]等人于1986年提出的。卷积神经网络体系结构的发明者法籍华裔学者杨立昆^[注]在1987年的博士论文中提出了神经网络的反向传播学习算法的现代形式。

概念与定义

在一个多层神经网络中，两层神经元之间的权值是深度学习需要学习的参数。有了学习准则和训练样本，网络参数可以通过梯度下降法进行学习，梯度下降法需要计算损失函数对参数的偏导数。如果通过链式法则逐一对每个参数进行求偏导比较低效，因此，在神经网络的训练经常使用反向传播算法来高效地计算梯度。反向传播算法的含义是：第1层的一个神经元的误差项是所有与该神经元相连的第 $l+1$ 层的神经元的误差项的权重和，然后，再乘上该神经元激活函数的梯度。

基本原理

给定一个样本 $(x,y)$ ，假设一个多层神经网络的损失函数为 $\mathcal{L}(y,\widehat y)$ 。不是一般性，首先对第 $l$ 层的参数 $W^{(l)},b^{(l)}$ 。根据链式法则：

$\frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial w_{ij}^{(l)} } = \frac{ \partial z^ {(l)} }{ \partial w_{ij}^{(l)} } \frac{\partial \mathcal{L} (y,\widehat y ) }{\partial z^ {(l)} }\tag*{（1）}$

$\frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial b^{(l)} } = \frac{ \partial z^ {(l)} }{ \partial b^{(l)} } \frac{\partial \mathcal{L} (y,\widehat y ) }{\partial z^ {(l)} }\tag*{（2）}$

上述两个等式的右边第二项都是损失函数关于第 $l$ 层神经元 $z^{(l)}$ 的偏导数，可以一次计算得到。因此，需要分别计算 $\frac{ \partial z^ {(l)} }{ \partial w_{ij}^{(l)} }$ ， $\frac{ \partial z^ {(l)} }{ \partial b^{(l)} }$ 和 $\frac{\partial \mathcal{L} (y,\widehat y ) }{\partial z^ {(l)} }$ 。

①计算偏导数 $\frac{ \partial z^ {(l)} }{ \partial w_{ij}^{(l)} }$ 。注意到， $z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$ ，因此有：

$\begin{aligned} \frac{\partial z^{(l)}}{\partial w_{i j}^{(l)}}&=\left[\frac{\partial z_{1}^{(l)}}{\partial w_{i j}^{(l)}}, \cdots, \frac{\partial z_{i}^{(l)}}{\partial w_{i j}^{(l)}}, \cdots, \frac{\partial z_{M_{l}}^{(l)}}{\partial w_{i j}^{(l)}}\right]\\ &=\left[0, \cdots, \frac{\partial\left(\boldsymbol{w}_{i:}^{(l)} \boldsymbol{a}^{(l-1)}+b_{i}^{(l)}\right)}{\partial w_{i j}(l)}, \cdots, 0\right]\\ &=\left[\begin{array}{lll} 0, & \cdots, a_{j}^{(l-1)}, \cdots, & 0 \end{array}\right]\\ &\triangleq \mathbb{1}_{i}\left(a_{j}^{(l-1)}\right) \in \mathbb{R}^{1 \times M_{l}} \end{aligned}\tag*{（3）}$

式中 $W_{i:}^{(l)}$ 为权重矩阵 $W^{(l)}$ 的第 $i$ 行； $\Pi_i (a_j^{(l-1)})$ 为第 $i$ 个元素为 $a_j^{(l-1)}$ ，其余为0的行向量。

②计算偏导数 $\frac{\partial z^{(l)}}{\partial b^{(l)}}$ 。注意到 $z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$ ，因此：

$\frac{\partial z^{(l)}}{\partial b^{(l)}}=I_{M_l}\in \mathbb{R}^{M_l\times M_l}\tag*{（4）}$

为 ${M_l\times M_l}$ 的单位矩阵。

③计算偏导数 $\frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial z^{(l)} }$ ，表示第 $l$ 层神经元对最终损失的影响，同时反映了最终损失对第 $l$ 层神经元的敏感程度，因此一般称为第 $l$ 神经元的误差项，记为 $\delta^{(l)}$ ：

$\delta^{(l)}\triangleq \frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial z^{(l)} } \in \mathbb{R}^{M_l}\tag*{（5）}$

注意到， $z^{(l+1)}=W^{(l+1)}a^{(l)}+b^{(l+1)}$ ，因此有：

$\frac{\partial z^{(l+1)}}{\partial a^{(l)}}=(W^{(l+1)})^\mathrm{T} \in \mathbb{R}^{M_l\times M_{l+1}}\tag*{（6）}$

根据 $a^{(l)}=f_l (z^{(l)})$ ，其中 $f_l(\cdot)$ 为按位计算的函数，因此有：

$\frac{\partial a^{(l)} }{\partial z^{(l)}} = \frac{ \partial f_l(z^{(l)}) }{\partial z^{(l)}} =diag(f'_l (z^{(l)}) )\in \mathbb{R}^{M_l\times M_l}\tag*{（7）}$

因此，根据链式法则， $\delta^{(l)}$ 可以表示为：

$\begin{aligned} &\delta^{(l)} \triangleq \frac{\partial \mathcal{L}(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial z^{(l)}}=\frac{\partial \boldsymbol{a}^{(l)}}{\partial \mathbf{Z}^{(l)}} \cdot \frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol{a}^{(l)}} \cdot \frac{\partial \mathcal{L}(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{Z}^{(l+1)}} \\ &=\operatorname{diag}\left(f_{l}^{\prime}\left(\boldsymbol{z}^{(l)}\right)\right) \cdot\left(\boldsymbol{W}^{(l+1)}\right)^{T} \cdot \delta^{(l+1)} \\ &=f_{l}^{\prime}\left(z^{(l)}\right) \odot\left(\left(\boldsymbol{W}^{(l+1)}\right)^{\top} \delta^{(l+1)}\right) \in \mathbb{R}^{M_{l}} \end{aligned}\tag*{（8）}$

通过上一步的公式推导可以看出，第1层的误差项可以通过第 $l+1$ 层的误差项计算得到，这就是误差的反向传播。

在得到三个偏导数之后，可以得到 $\mathcal{L} (y,\widehat y )$ 关于第 $l$ 层权重 $W^{(l)}$ 的梯度为：

$\frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial W^{(l)} } =\delta ^{(l)}(a^{(l-1)} ) ^\mathrm{T} \in \mathbb{R}^{{M_l}\times{M_{l-1}}}\tag*{（9）}$

同理， $\mathcal{L} (y,\widehat y )$ 关于第 $l$ 层偏置 $b^{(l)}$ 的梯度为：

$\frac{ \partial \mathcal{L} (y,\widehat y ) }{ \partial b^{(l)} } =\delta ^{(l)} \in \mathbb{R}^{{M_l}}\tag*{（10）}$

应用

在实践中，通常将反向传播算法和随机梯度下降算法进行结合使用，并且经常用于训练人工神经网络。反向传播网络在各个领域都有广泛的应用，例如字符识别、语音识别、人脸识别等。

意义与影响

训练神经网络的目标是优化损失函数，使得损失函数找到一个全局最小值或者局部最小值。不管使用何种梯度下降算法，都需要先算出各个参数的梯度。反向传播的作用就是快速算出所有参数的偏导数。因此，作为一种快速计算导数的技巧，反向传播不仅在深度学习中广泛应用，而且还用在各种各样的数值计算情境中。此外，反向传播的原理展示了损失函数关于参数的导数在复杂模型中是如何流动的，因此对于解决模型优化过程中可能出现的问题（梯度消失、梯度爆炸等）有十分重要的启发意义。

扩展阅读

邱锡鹏．神经网络与深度学习．北京：机械工业出版社，2020．

反向传播

朱雪宁

简史

概念与定义

基本原理

应用

意义与影响

扩展阅读

阅读历史

感谢您的反馈

反向传播

朱雪宁

简史

概念与定义

基本原理

应用

意义与影响

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈