神经网络入门之bp算法，梯度下降-CDA数据分析师官网

热线电话：13121318867

神经网络入门之bp算法，梯度下降

2018-08-01

神经网络入门之bp算法，梯度下降

本人作为一个想进行NLP研究的新手，看了很多网络上很好的神经网络的入门代码和数学原理。但是个人数学比较烂，很多东西想了很久才想明白，又害怕忘掉。为此写下这篇大白话入门篇作为自己学习的一个记录，也想为跟我同样想入门的同学们一个参考。希望有问题多多交流。
备注：很多内容都是本人自己想当然的结果，有错误的话，望大神们多多指教。
废话都说完了本文将从一个最简单一个BP网络开始讲起。
bp网络的bp（back propagation）中文就是反向传播的意思，为什么反向传播呢。是为了将配合梯度下降法进行迭代求出好的结果。这个会稍后讲解。

上图来自百度图片（懒得画了）
x为输入，w为权重，这个f(x)被称为激活函数（activation function）。如sigmoid，tanh等。他们的特点有一个就是可以容易的求出他们的导数（很关键）。激活函数的意义可以看这篇神经网络激励函数的作用是什么？有没有形象的解释？
可以看到输出的o = f(w1x1+w2x2+w3x3+w4x4) = f(∑WiXi)。
第一次运算的结果很明显就是上边的o。但是此时问题出来了，运算出来的o和实际的结果肯定式有误差的，该如何利用这个误差优化这个运算呢？也就是得到好的w呢？

梯度下降法

此时就出现了反向传播这个过程。而配合反向传播的就是梯度下降法了。
现在很多同学可能会很晕，当时我第一次看的时候也很晕。
为了容易理解梯度下降法，建议去看Ng的斯坦福网课第二节，非常清楚。比我写的清楚多了。
梯度下降法是求（局部）最好的w。
设误差函数为：

y为实际结果，o为预测结果。
设激活函数f(x)为sigmoid函数，此时就可以很方便的求出其导数了（其他激活函数也是一样）

所以我们要求的就是J最小的时候wi的值。a是变化的速率。下式就可以比作从山顶走到山底的过程，而a表示行走的步长或者是速率。

此时可以发现每一项都是可以求出的，则经过多次运算，可以求出好的Wi
一般我们把前两项作为

此时我们可以发现

BP的原因

上边介绍完了梯度下降，现在再说反向传播理由。其实很简单了。它用的就是链式法则。我们第一步是前向传播，进行一系列运算得到了预测结果o。为了使用梯度下降法，我们需要得到，上边需要的delta，也就是说 J 这个误差函数。因为实际结果我们知道，而激活函数的导数我们也知道怎么运算。所以我们得到预测结果o时，delta就可以求出来。而delta属于输出层的运算，再乘以输入层的Xi就能得到∂

Wi，进一步更新Wi。
很明显可以看出整个一轮的运算是：
前向传播：
输入层—-w—》输出层（sigmoid）—-》预测结果
后向传播：
误差—》输出层(sigmoid)求导—-》输入层—–》更新Wi

换句话说，BP算法就是提供了给梯度下降法所需要的所有值。
由链式法则可知，如果网络层数为3层以上时也可以得到每层的delta。
用python代码来说：
layer_n_delta = layer_n+1_delta.dot((W_n_n+1).T)
(W_n_n+1) += (Xn).T.dot(layer_n+1_delta)

上边有很多符号有点问题，但是我觉得阅读应该没有什么障碍。因为第一次用这个marddown编辑器，很多东西不好弄。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；