8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png
0
0
0

感知器,线性变换,激活函数,梯度下降

雷顿
6小时前 31

https://leidun.pp.ua/feed/21

参考文献:feed/13

image.png

rip2.webp

感知器模型

鳄鱼和蛇

这里有代表鳄鱼和蛇的1010个点,横坐标x1x_1是身长 (cm)(cm) ,纵坐标x2x_2是体重 (kg)(kg)55个黄色的点代表55种鳄鱼的数据,蓝色的点是55种蛇。

🐊   🐍  
扬子鳄 (150,36)(150, 36) 赤练蛇 (150,1.1)(150, 1.1)
恒河鳄 (400,160)(400, 160) 东部菱背响尾蛇 (170,2.3)(170, 2.3)
尼罗鳄 (316,137.5)(316, 137.5) 眼镜王蛇 (359,6)(359, 6)
美洲短吻鳄 (340,360)(340, 360) 森蚺 (521,97.5)(521, 97.5)
湾鳄 (460,465)(460, 465) 网纹蟒 (659,59)(659, 59)

image.png

现在我们来画一条线w1x1+w2x2=bw_1x_1 + w_2x_2 = b,把鳄鱼和蛇分开。

image.png

同样的长度,鳄鱼比蛇重多了,所以我们可以轻松画出一条线把它们分开。代表这条线的w1x1+w2x2−b=0w_1x_1 + w_2x_2 - b = 0,就是我们需要的分割线方程。

当输入的特征是nn维向量时,那么分割线方程∑iwixi−b=0\sum_{i} w_i x_i - b = 0代表的则是nn维空间里一个(n−1)(n-1)维的超平面,把向量分成两类。

这跟人工智能又有什么关系呢?

分类是智能的源头

刚刚这个问题的本质是二元分类,而分类,其实就是智能的源头。

我们人类智能的源头,是神经元。我们的脑子里大约有850亿个神经元,你可以把它理解成一个逻辑开关。神经元可以接受多个上游细胞传来的信号,它们有的是刺激信号,有的是抑制信号,当一个神经元接收到的信号总和达到某个阈值,它就会被激活,通过轴突向下一个神经元传递信号。所以单个神经元的输出只存在两种状态:激活和未激活。

image.png

比如这个神经元,它接收2个树突信号x1x_1x2x_2,不同的树突重要程度也不一样,我们可以用权重w1w_1w2w_2来表示,如果所有的树突信号的总和∑iwixi\sum_{i} w_i x_i大于阈值bb,神经元就会被激活;小于bb,神经元不激活。

单层感知器是对生物神经元的高度简化数学抽象

image.png

当输入信号f(x)=∑iwixif(\bm{x}) = \sum_{i} w_i x_i大于阈值bb,神经元被激活,我们把输出的结果yy定义为11;如果f(x)f(\bm{x})小于阈值bb,神经元不激活,输出的yy就是00

请你好好地记住这样一个神经元模型:输入xix_i,权重wiw_i,判断,输出yy

我们后面要介绍到的看起来非常复杂的各种神经网络,都是由一个一个这样的小神经元互相连结搭建起来的,而我们只要让它开始学习就好了。

image.png

流程很简单:

image.png

现在让我们看看,这个模型是怎么把鳄鱼和蛇自动分类的。

  • 输入特征:就是动物的身长x1x_1和体重x2x_2
  • 识别特征:是把每个点的x1x_1x2x_2都代入信号公式f(x)=w1x1+w2x2f(\bm{x}) = w_1 x_1 + w_2 x_2
  • 输出结果:如果大于bb输出结果yy就是11,小于bb就是00
  • 判断对错

如果我们把w1w_1的初始值设定为−1-1w2w_2设定为00bb设定为−200-200,我们就可以得到坐标系里每一个点的计算结果。

image.png

我们把f(x)>bf(\bm{x})>b的点标成黄色,f(x)<bf(\bm{x})<b的点标成蓝色。可以看到有一条线,这就是我们前边介绍的分割线方程f(x)−b=0f(\bm{x})-b=0。改变ww或者bb,线的位置也会改变。

image.png

但这条线不重要,线是给你看的,不是给机器看的。机器看不懂线,也不知道黄色是鳄鱼区,蓝色是蛇区,但通过对每一个点的计算,机器能知道,这6个点错了。

  • 湾鳄:(460,465)(460, 465)
  • 赤练蛇:(150,1.1)(150, 1.1)
  • 东部菱背响尾蛇:(170,2.3)(170, 2.3)
  • 尼罗鳄:(316,137.5)(316, 137.5)
  • 美洲短吻鳄:(340,360)(340, 360)
  • 恒河鳄:(400,160)(400, 160)

为什么?这就是让神经元开始学习的核心环节:判断对错

输出的结果是yy,而为了能让机器判断对错,我们在训练它时需要人为设定目标结果YY,在这个例子里边,鳄鱼的目标结果是11,蛇是00。只有输出结果和目标结果一致,分类才正确。不一致,就是错。

怎么样才能让机器把分割线的参数调对呢?在一次次迭代中,这些参数要经过怎样的调整使得分类正确率越来越高?

tt代表迭代次数,那么参数更新公式为:

  • wi(t+1)=wi(t)+Δwiw_{i(t+1)} = w_{i(t)} + \Delta w_i
  • b(t+1)=b(t)+Δbb_{(t+1)} = b_{(t)} + \Delta b

好,最核心也最有意思的部分终于来了:Δwi\Delta w_iΔb\Delta b是怎样计算出来的呢?

我们定义误差为预期与输出的差,即Y−yY-y

如果分类正确,那么误差就是00,如果分类错误,那么误差就是11或者−1-1

如果误差为00,则意味着分类正确,不需要调整参数们,那么Δwi\Delta w_iΔb\Delta b都为00

如果误差不为00,则意味着分类错误,参数们需要沿着误差方向调整。当对应输入的特征xix_i越大,则调整的幅度也应该更大。
即:

Δwi=(Y−y)⋅xi⋅η\Delta w_i = (Y-y) \cdot x_i \cdot \eta Δb=(Y−y)⋅1⋅η\Delta b = (Y-y) \cdot 1 \cdot \eta

其中,η\eta学习率 (learning rate) ,它控制着每次调整的步长——调得太大会震荡不收敛,调得太小学习速度太慢。

现在只要机器判断错误,参数们就会自动调整。随着迭代次数变多,不断调整权重wiw_i和偏置项bb的值,线性函数f(x)=wTx+bf(\bm{x})=\bm{w}^\mathrm{T} \bm{x} +b 把已知数据分成两类的正确率会越来越高。

但是现在这个感知器模型还有一个致命缺陷image.png

image.png

很多数据根本没办法使用一条直线、一个平面或者超平面分开。

image.png

比如来一条身长500cm500cm体重50kg50kg的鳄鱼,那感知器模型调到冒烟也不会成功的。

image.png

要解决这个问题,让我们先从经典的异或问题(XOR)——把这44个点分开开始

线性变换与平移

(0,0) (1,1)和(0,1) (1,0)

image.png

你可能会想,要是这条分割线能弯一下就好了,但很可惜,弯不了。

因为分割线方程∑iwixi+b=0\sum_{i} w_i x_i + b = 0是一次的,在二维平面里,它就是一条直直的线。

image.png

那我们不妨试着把这个二维空间弯一下。

image.png

这时候再调整分割线方程的参数,轻松分开两类点。

加一层

感知器模型的本质是一个二元分类器,输入有22个维度就是在22维空间用一条线把向量分成两块,输入有33个维度就是在33维空间用一个面把向量分成两块。

image.png

无论在几维空间,这个分类器都太了,处理不了数据有交叉的情况。比如你刚刚试过的(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)

image.png

因为分割线方程是一次的,体现在22维空间里,就一定是一条直线。既然线弯不了,我们可以试着弯曲整个坐标系。

image.png

让我们加入两个新的神经元,把它们连接在一起。这层中间层,就是线性变换与平移:

  • z1=w1x1+w2x2+b1z_1 = w_1x_1 + w_2x_2 + b_1
  • z2=w3x1+w4x2+b2z_2 = w_3x_1 + w_4x_2 + b_2

矩阵:操作向量的工具

看到上面两行等式,以及前文提到的输入信号公式:
f(x)=∑iwixif(\bm{x}) = \sum_{i} w_i x_i

有没有感到熟悉?

揭晓答案!上面那个从22维到22维的线性变换和平移可以表示成这个样子:

[z1z2]⏟z=[w1w2w3w4]⏟W[x1x2]⏟x+[b1b2]⏟b \underbrace{\begin{bmatrix} z_1 \\ z_2 \end{bmatrix}}_{\bm{z}} = \underbrace{\begin{bmatrix} w_1 & w_2 \\ w_3 & w_4 \end{bmatrix}}_{\mathbf{W}} \underbrace{\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}}_{\bm{x}} + \underbrace{\begin{bmatrix} b_1 \\ b_2 \end{bmatrix}}_{\bm{b}}

这是我们熟悉的矩阵运算,而相乘再相加的输入信号公式f(x) f(\bm{x}),也可以写成向量点乘的样子:

f(x)=wTx f(\bm{x}) = \bm{w}^\mathrm{T} \bm{x}

让我们来仔细感受一下矩阵W\mathbf{W}是怎么起作用的

image.png

把向量[21]\begin{bmatrix} 2 \\ 1 \end{bmatrix}放在坐标系里的过程其实可以拆成两步:从原点出发,往[10] \begin{bmatrix} 1 \\ 0 \end{bmatrix}的方向走22个单位,再往[01] \begin{bmatrix} 0 \\ 1 \end{bmatrix}的方向走11个单位。也就是找到基向量,乘上系数。基向量是我们描述、刻画向量空间的基本工具。

[21]=2[10]+1[01]=[1001][21]\begin{aligned} \begin{bmatrix} 2 \\ 1 \end{bmatrix} &= 2 \begin{bmatrix} 1 \\ 0 \end{bmatrix} + 1 \begin{bmatrix} 0 \\ 1 \end{bmatrix} \\ &= \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \end{aligned}

其中,单位矩阵[1001]\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}的两列可以看成两个自然基向量[10]\begin{bmatrix} 1 \\ 0 \end{bmatrix}[01]\begin{bmatrix} 0 \\ 1 \end{bmatrix}。而改变这个矩阵,就意味改变基向量,也就是改变空间。以W=[3214]\mathbf{W} = \begin{bmatrix} 3 & 2 \\ 1 & 4 \end{bmatrix}为例,[31]\begin{bmatrix} 3 \\ 1 \end{bmatrix} [24]\begin{bmatrix} 2 \\ 4 \end{bmatrix}替代了[10]\begin{bmatrix} 1 \\ 0 \end{bmatrix} [01]\begin{bmatrix} 0 \\ 1 \end{bmatrix}成为了新的基向量,我们来计算一下[21]\begin{bmatrix} 2 \\ 1 \end{bmatrix}在进行这个线性变换之后怎么表示:

image.png

从原点出发,往[31] \begin{bmatrix} 3 \\ 1 \end{bmatrix}的方向走22个单位,再往[24] \begin{bmatrix} 2 \\ 4 \end{bmatrix}的方向走11个单位,结果就是[86] \begin{bmatrix} 8 \\ 6 \end{bmatrix}

这就是矩阵W\mathbf{W}的作用:通过改变基向量,来让原本平直的坐标网格发生拉伸旋转,从而使原本的向量都移动到一个新的位置。

好,现在你试试调整矩阵W\mathbf{W}和向量b\bm{b},看看能不能把(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)分开。

image.png image.png

揭晓答案!其实分不开。因为不论你怎么调整,也都还是线性变换,看起来还是直直的。解决方案其实也很简单,再加一层非线性变换。

image.png

在前面,我们早就见过非线性变换了。f(x)>bf(\bm{x})>b输出11f(x)<bf(\bm{x})<b输出00

我们重新整理一下,就能看到阶跃函数真正的样子:

step(x)={1if x≥00if x<0\text{step}(x) = \begin{cases} 1 & \text{if } x \ge 0 \\ 0 & \text{if } x < 0 \end{cases}

image.png

这也是最简单的一种激活函数。

激活函数

除了阶跃函数,在机器学习中还有三种常见的激活函数:逻辑函数(Sigmoid),线性整流函数(ReLU)和双曲正切函数(Tanh)。

image.png

image.png

image.png

现在,我们可以用一种激活函数,把刚刚经过线性变换与平移得到的向量z=[z1,z2]T\bm{z} = [z_1, z_2]^\mathrm{T}转化为h=[h1,h2]T\bm{h} = [h_1, h_2]^\mathrm{T}

我们来动手试试看,任选一种激活函数,都可以分开(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)

image.png

比如我们这里加一层阶跃函数,这个坐标系看起来就不存在了,横坐标跟纵坐标都只有0011两个值。想想看,现在应该怎样分类呢?

image.png

在这种情况下,我们可以通过之前的线性变换与平移让(0,0)(0,0)(1,1)(1,1)都变换到横纵坐标都小于00的位置,且此时(0,1)(0,1)的横坐标小于00,纵坐标大于00(1,0)(1,0)的横坐标大于00,纵坐标小于00

image.png

我们再应用阶跃函数:输入小于00,则输出00,输入大于00,则输出11。那么原本的(0,0)(0,0)(1,1)(1,1)都变换到(0,0)(0,0)的位置,而(0,1)(0,1)会成为(0,1)(0,1),同时(1,0)(1,0)也会成为(1,0)(1,0)

image.png

这时我们就可以调整分割线方程,轻松分开(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)

冷静一下,在机器学习中,一般不使用阶跃函数来作为激活函数。一个好的激活函数应该有这些好的性质:

  • 连续可导
  • 定义域是实数域R\mathbb{R}
  • 单调递增

我们将在后续章节梯度下降中展开这部分内容。

image.png

终于,我们手动搞定了分类异或问题,回过头来看其实也挺简单。先设定好激活函数让坐标系变形,再通过调整矩阵W\mathbf{W}和向量b\bm{b}的线性变换和平移分开数据,最后再调整分割线方程,完成分类。

image.png

让我们来挑战一个复杂一点的:这里有6060个点,中间3030个白点作为一组,外围3030个黑点作为另一组。你试试看,还能不能分开?

线性变换与平移:升一维

image.png

你可能已经发现了,我们很难在一个22维平面中把两个圆环分开。但解决方案也很简单,加一个维度,把22维平面变换成33维空间。在中间层(线性变换与平移)再加一个神经元,我们就能在22维输入x=[x1,x2]T\bm{x}=[x_1,x_2]^\mathrm{T}的基础上构建33个维度:z1,z2z_1, z_2 z3z_3

用矩阵运算来表示这个过程就是这样:

[z1z2z3]⏟z=[w1w2w3w4w5w6]⏟W[x1x2]⏟x+[b1b2b3]⏟b \underbrace{\begin{bmatrix} z_1 \\ z_2 \\ z_3 \end{bmatrix}}_{\bm{z}} = \underbrace{\begin{bmatrix} w_1 & w_2 \\ w_3 & w_4 \\ w_5 & w_6 \end{bmatrix}}_{\mathbf{W}} \underbrace{\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}}_{\bm{x}} + \underbrace{\begin{bmatrix} b_1 \\ b_2 \\ b_3 \end{bmatrix}}_{\bm{b}}

image.png

升维把原本密集的向量在高维空间里变得稀疏,从而更好被分开。

image.png

33维空间中的分类情况投影到22维平面,两类数据之间的分割线,就是一个圆。

image.png

原本扭曲的异或分类在投影之后,坐标系会变直,分割线会变弯。但我们都知道,在那个高维空间里真正的分割线,实际上依然是平直的

终于,我们得到了一个新结构,在最简单的感知器模型的基础上,加多了两层神经元:线性变换与平移激活函数。我们能否让它像分类鳄鱼和蛇一样,自动完成对(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)的分类呢?

先别激动,现在还不行。在让它自动学习之前,我们还需要先下个山

梯度下降

image.png

在只有一层神经元(阶跃函数)的感知器模型中,机器只需要沿着误差方向调整参数,总可以慢慢把模型的分类正确率提高。
即:

  • Δwi=(Y−y)⋅xi⋅η\Delta w_i = (Y-y) \cdot x_i \cdot \eta
  • Δb=(Y−y)⋅1⋅η\Delta b = (Y-y) \cdot 1 \cdot \eta

但是在有了隐藏层之后(即输入 → 隐藏层 → 输出层这样的多层神经网络中),隐藏层并没有所谓的预期结果。我们不知道隐藏层应该输出什么值才能让最终结果正确,事实上这也没有唯一的正确答案。

损失函数

既然不知道隐藏层“应该”输出什么,那就看隐藏层“导致”了最终多大的误差

image.png

我们先来量化一个模型的误差。我们定义刚刚分类(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)的模型的损失函数(Loss function)L=14∑i=14∣Yi−yi∣L = \frac{1}{4} \sum_{i=1}^{4} \left|Y_i - y_i \right| 我们可以用它衡量这个模型的误差,而这个结果与模型中的每一个参数都相关,也就是说L=f(w1,w2,w3,w4,w5,w6,b1,b2,b3)L = f(w_1, w_2, w_3, w_4, w_5, w_6, b_1, b_2, b_3)

在机器学习中,我们更常使用一种在数学和优化上具备极大优势的形式——均方误差的一半(Half MSE)。将误差平方,并在求和前乘上12\frac{1}{2},也就是:

L=12n∑i=1n(Yi−yi)2L = \frac{1}{2n} \sum_{i=1}^{n} (Y_i - y_i)^2

在机器学习中,损失函数是非常核心的概念。有了这个标尺,我们才能给机器设定明确的目标,让损失函数越低越好。抽象来说,其实就是“下山”。以L=f(w1,w2,w3,w4,w5,w6,b1,b2,b3)L = f(w_1, w_2, w_3, w_4, w_5, w_6, b_1, b_2, b_3)为例,这99个变量和损失值LL构成了一个1010维空间里连绵起伏的山丘,机器需要在这1010个方向爬啊爬啊爬啊……直到爬到最低点。

构建了山丘还不够,我们还需要一个算法,给机器指明方向,找到下山的路。这个算法就是梯度下降Gradient Descent)。

梯度下降的意思很简单,拆开来看就是:找准梯度的方向,然后下降

什么是梯度?在单变量函数里,它是导数(斜率);在多变量函数里,它是偏导数构成的向量。

你可以把梯度理解为:在当前位置,指向山坡“最陡峭、上升最快”的那个方向

而我们的目标是下山,那就沿着梯度的反方向走,就一定是在走最陡的下坡路。

也就是说,参数们应该这样调整:

θt+1=θt−η∇θL(θt)\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta}_t)

这里用θ\boldsymbol{\theta}表示参数们构成的向量,展开来这个公式长这样子:

[w1w2⋮b1b2⋮]t+1=[w1w2⋮b1b2⋮]t−η[∂L∂w1∂L∂w2⋮∂L∂b1∂L∂b2⋮]t\begin{bmatrix} w_1 \\ w_2 \\ \vdots \\ b_1 \\ b_2 \\ \vdots \end{bmatrix}_{t+1} = \begin{bmatrix} w_1 \\ w_2 \\ \vdots \\ b_1 \\ b_2 \\ \vdots \end{bmatrix}_{t} - \eta \begin{bmatrix} \frac{\partial L}{\partial w_1} \\ \frac{\partial L}{\partial w_2} \\ \vdots \\ \frac{\partial L}{\partial b_1} \\ \frac{\partial L}{\partial b_2} \\ \vdots \end{bmatrix}_{t}

这里的η\eta是学习率,用来控制步长。负号意味着沿梯度的反方向调整参数。

学习率设得太大容易错过“谷底”,设得太小又收敛得太慢或者容易陷进局部最优解……

只要我们能算出损失函数 LL 对每个参数的偏导数,机器就能自动调整参数,完成学习。可是这并不是一件容易的事情。

链式法则

对于输出层直接连接的参数,算偏导数并不难。但是,对于藏在网络深处、没有直接误差信号的隐藏层,我们该怎么求最终损失 LL 对它的偏导数呢?

这里要用到我们中学时学过的复合函数求导法则——链式法则

如果要求L=f(w1,w2,w3,w4,w5,w6,b1,b2,b3)L = f(w_1, w_2, w_3, w_4, w_5, w_6, b_1, b_2, b_3)99个变量的偏导数,我们要做些准备工作。先随便设置一下99个参数的初始值,和z1z_1h1h_1z2z_2h2h_2z3z_3yy的激活函数。

image.png

和前面的激活函数章节里不同,为了算梯度,激活函数和输出层不能使用阶跃函数,因为它的导数几乎处处为00。好的激活函数应该有这些良好性质:

  • 连续可导,为了能在反向传播中把损失传播到隐藏层。
  • 定义域是实数域R\mathbb{R},并且有好的输出范围。比如可以在靠近输入层的神经元应用线性整流函数ReLU这类输出范围较大的激活函数,远离输入层的神经元应用双曲正切函数Tanh和逻辑函数Sigmoid这类输出范围较小的激活函数。
  • 单调递增,保持梯度方向一致。

想一想,用阶跃函数作为激活函数有什么局限性?

前向传播

这里我们设z1z_1h1h_1z2z_2h2h_2z3z_3到最终输出yy的激活函数都为逻辑函数Sigmoid。

image.png

然后把四个点代进去算一算。

image.png

以输入x=[1,0]T\bm{x}=[1,0]^\mathrm{T}为例:

z1=w1⋅x1+w2⋅x2+b1=0.1⋅1+0.2⋅0+0.7=0.8\begin{aligned} z_1 &= w_1 \cdot x_1 + w_2 \cdot x_2 + b_1 \\ &= 0.1 \cdot 1 + 0.2 \cdot 0 + 0.7 \\ &= 0.8 \end{aligned} h1=σ(z1)=11+e−z1=11+e−0.8≈0.69h_1 = \sigma(z_1) = \frac{1}{1 + e^{-z_1}} = \frac{1}{1 + e^{-0.8}} \approx 0.69 z2=w3⋅x1+w4⋅x2+b2=0.3⋅1+0.4⋅0+0.8=1.1\begin{aligned} z_2 &= w_3 \cdot x_1 + w_4 \cdot x_2 + b_2 \\ &= 0.3 \cdot 1 + 0.4 \cdot 0 + 0.8 \\ &= 1.1 \end{aligned} h2=σ(z2)=11+e−z2=11+e−1.1≈0.75\begin{aligned} h_2 &= \sigma(z_2) = \frac{1}{1 + e^{-z_2}} = \frac{1}{1 + e^{-1.1}} \approx 0.75 \end{aligned} z3=w5⋅h1+w6⋅h2+b3=0.5⋅0.69+0.6⋅0.75+0.9=0.345+0.45+0.9≈1.69\begin{aligned} z_3 &= w_5 \cdot h_1 + w_6 \cdot h_2 + b_3 \\ &= 0.5 \cdot 0.69 + 0.6 \cdot 0.75 + 0.9 \\ &= 0.345 + 0.45 + 0.9 \\ &\approx 1.69 \end{aligned} y=σ(z3)=11+e−z3=11+e−1.69≈0.84\begin{aligned} y &= \sigma(z_3) = \frac{1}{1 + e^{-z_3}} = \frac{1}{1 + e^{-1.69}} \approx 0.84 \end{aligned}

输出y≈0.84y \approx 0.84离目标Y=1Y=1还有点距离,我们可以进一步算出损失值,在输入只有一个点的情况下L=12×1(Y−y)2=0.0120L = \frac{1}{2 \times 1} (Y - y)^2=0.0120

我们从左往右填完了所有的空,这个过程被称为前向传播Forward Propagation):将训练输入送入网络以获得激励响应。

反向传播

接下来我们开始反向传播Backward Propagation,“误差反向传播”的简称,该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数)。

直观地,就是从右边的损失值LL来推算出左边的参数们wiw_ibib_i要改变的值。也就是在损失函数上做梯度下降,即求LL99个参数的偏导数。

b3b_3为例,损失函数LLb3b_3的偏导数可通过链式法则分解为:

∂L∂b3=∂L∂y⋅∂y∂z3⋅∂z3∂b3\frac{\partial L}{\partial b_3} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial z_3} \cdot \frac{\partial z_3}{\partial b_3}

我们逐项计算:

  1. 损失对输出的偏导(均方误差损失 L=12(Y−y)2L = \frac{1}{2}(Y-y)^2):

    ∂L∂y=−(Y−y)=y−Y\frac{\partial L}{\partial y} = -(Y - y) = y - Y
  2. 输出对加权输入的偏导(Sigmoid 逻辑函数 σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}},其导数为 σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))):

    ∂y∂z3=σ′(z3)=y(1−y)\frac{\partial y}{\partial z_3} = \sigma'(z_3) = y(1-y)
  3. 加权输入对偏置的偏导z3=w5h1+w6h2+b3z_3 = w_5 h_1 + w_6 h_2 + b_3):

    ∂z3∂b3=1\frac{\partial z_3}{\partial b_3} = 1

因此:

∂L∂b3=(y−Y)⋅y(1−y)⋅1\boxed{\frac{\partial L}{\partial b_3} = (y - Y) \cdot y(1-y) \cdot 1}

代入数值 y≈0.84y \approx 0.84, Y=1Y = 1

∂L∂b3≈(0.84−1)×0.84×(1−0.84)≈−0.02\begin{aligned} \frac{\partial L}{\partial b_3} &\approx (0.84 - 1) \times 0.84 \times (1 - 0.84) \\ &\approx -0.02 \end{aligned}

想想看,形如Δb3=−η∂L∂b3\Delta b_3= - \eta \frac{\partial L}{\partial b_3}是单层感知器模型参数更新公式的推广吗?
Δwi=(Y−y)⋅xi⋅η\Delta w_i = (Y-y) \cdot x_i \cdot \eta
Δb=(Y−y)⋅1⋅η\Delta b = (Y-y) \cdot 1 \cdot \eta

同理,我们可以算出损失LL剩下88个参数的偏导数,然后接着对剩下33个输入做前向传播算出损失和梯度。遍历完整个训练集44个输入之后,对算出来的44个梯度求平均,乘上−η-\eta,这就是这次迭代参数们需要改变的值。这样就完成了一次反向传播。

梯度比较大的时候,学习率可以适当设得大一些,坡度足够高时可以大胆跨大步下山;梯度比较小的时候,学习率应该设小一些,以防止错过谷底。

像这样,一轮前向传播遍历了整个训练集才做了一次反向传播的梯度下降叫做批量梯度下降Batch Gradient Descent

终于,我们这个神经网络能够自动完成对(0,0)(1,1)(0,0) (1,1)(0,1)(1,0)(0,1) (1,0)的分类……

终点:(0,0) (1,1) 和 (0,1) (1,0)

现在,你已经掌握了机器学习的核心:

  • 基本的感知器单元
  • 带有目标值的训练数据
  • 可以“扭曲空间”的隐藏层
  • 以梯度下降为核心的更新权重的算法

把它们拼装在一起,见证人工智能的诞生吧。

image.png

image.png

image.png

最新回复 (0)

    暂无评论

    • 碧蓝之星_深海迷航社区
      2
        点击登录 点击注册

请先登录后发表评论!

返回