现代术语 “深度学习’’ 超越了目前机器学习模型的神经科学观点。它诉诸于学
习多层次组合这一更普遍的原理,这一原理也可以应用于那些并非受神经科学启发
的机器学习框架。
现代深度学习的最早前身是从神经科学的角度出发的简单线性模型。这些模型
被设计为使用一组 n 个输入 x1; : : : ; xn 并将它们与一个输出 y 相关联。这些模型希
望学习一组权重 w1; : : : ; wn,并计算它们的输出 f(x; w) = x1w1 + · · · + xnwn。如
图 1.7 所示,这第一波神经网络研究浪潮被称为控制论。
McCulloch-Pitts 神经元 (McCulloch and Pitts, 1943) 是脑功能的早期模型。该
线性模型通过检验函数 f(x; w) 的正负来识别两种不同类别的输入。显然,模型的
权重需要正确设置后才能使模型的输出对应于期望的类别。这些权重可以由操作人
员设定。在 20 世纪 50 年代,感知机 (Rosenblatt, 1956, 1958) 成为第一个能根据
每个类别的输入样本来学习权重的模型。约在同一时期, 自适应线性单元 (adaptive
linear element, ADALINE) 简单地返回函数 f(x) 本身的值来预测一个实数 (Widrow
and Hoff, 1960),并且它还可以学习从数据预测这些数。
这些简单的学习算法大大影响了机器学习的现代景象。用于调节 ADALINE 权
重的训练算法是被称为 随机梯度下降(stochastic gradient descent)的一种特例。稍
加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。








暂无数据