9.神经网络学习

9 神经网络学习

9.1 代价函数

分类问题：二元分类、多分类

我们用L表示总层数，$s_l$表示第$l$层的神经元个数，常用$s_l$或$K$表示最后一层神经元的个数。

在二元分类中，输出$y=0 or 1\in\mathbb{R}$，$s_l=K=1$.在多元分类中，输出$y\in\mathbb{R}^K$, $s_l=K$, $(K \ge3)$.

神经网络中我们的代价函数与逻辑回归中的代价函数类似，我们的输出$h_\Theta(x)\in\mathbb{R}^K$,其中$(h_\Theta(x))_i$表示输出向量中第i项的值。

首先前面的项多了$\sum_{k=1}^{K}$表示将输出层每个神经元的预测值与真实值之间的距离加和，后面项是规格化项，这里通常规定不计算每一层的$\theta_0$，然后将每一层的$\theta$矩阵平方加和。即所有参数的平方和。（计算$\theta_0$也是可以的，但通常不这样做）

9.2 反向传播算法

为了执行梯度下降算法，我们需要计算$J(\Theta)$和$J(\Theta)$对各个参数$\Theta_{ij}^{(l)}$的偏导。

假设我们的网络如右图，只有一个样本$(x,y)$时我们先进行前向传播，计算出以下：

定义$\delta_j^{(l)}$表示第l层第j个节点的误差。则$\delta_j^{(4)}=(h_\Theta(x))_j-y_j=a_j^{(4)}-y_j$。我们也可以写成向量的形式$\delta^{(4)}=a^{(4)}-y，\delta^{(4)},a^{(4)},y\in\mathbb{R}^K$，第3层的误差项为$\delta^{(3)}=(\Theta^{(3)})^T\delta^{(4)}.g’(z^{(3)})$,其中$g’(z^{(3)})$是sigmoid函数的导数，经推导sigmoid函数导数有一个特点：$g’(z^{(3)})=a^{(3)}.(1-a^{(3)})$。

同理$\delta^{(2)}=(\Theta^{(2)})^T\delta^{(3)}.*g’(z^{(2)})$, $g’(z^{(2)})$类似.注意第一层没有误差项，因为我们不想改变我们的输入$x$.

当我们忽略正则化项，即当$\lambda=0$时。经推导，$J(\Theta)$对各矩阵参数$\Theta_{ij}^{(l)}$的偏导为$a_j^{(l)}\delta_i^{(l+1)}$.

下面是反向传播算法的伪代码。当有m个样本时，变量i遍历每个样本，令$a^{(1)}=x^{(i)}$,然后执行前向传播计算出$a^{(l)}$,再使用$y^{(i)}$计算出$\delta^{(L)}$，然后进行反向传播计算出$\delta^{(L-1)},\delta^{(L-2)}…\delta^{(2)}$. 使用$\Delta_{ij}^{(l)}$累加各偏导数项$a_j^{(l)}\delta_i^{(l+1)}$，写成向量的形式即为$\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$.

当$j=0$时没有偏差项。计算代价函数的偏导数，公式如下：

9.3 理解反向传播

当只有一个输出单元时，前向传播的过程：

当只考虑一个样本i时。我们简化代价函数，去掉正则化项，得到 cost(i)：

反向传播的过程：$\delta^{(4)}_1=y^{(i)}-a^{(i)}1$。$\delta^{(3)}2=\Theta{12}^{(3)}\delta_1^{(4)},\delta^{(2)}2=\Theta{12}^{(2)}\delta_1^{(3)}+\Theta{22}^{(2)}\delta_2^{(3)}$.

即对于每一层来说，$\delta$分量都等于后面一层所有的$\delta$的加权和，其中权值就是参数$\Theta$:$\delta_j^{(l)}=\sum_{k=1}^{s_{(l+1)}-1}\Theta_{kj}^{(l)}\delta_k^{(l+1)}$