概述
历史:
- 神经网络基本单元:MCP神经元
- 神经元因何链接:赫布理论
- 神经元链接成”网“:感知机模型
- 神经元之间刺激可层层递进学习:误差后向传播
- 逐层抽象、层层递进:深度学习
- 引发AI第三次崛起:语言大模型
前馈神经网络:
- 神经元:MCP模型
- 性质:具有兴奋与抑制两种状态
- 结构:\(y=\Phi(\sum_{i=1}^nw_ix_i)\)
- 概念:全连接
- 性质:
- 层层递进、逐层抽象
- 非线映射
- 误差反馈调优
感知机:
- 加权求和,累加偏置: $$ z=w_1x_1+\cdots+b $$
- 传入激活函数,得到\(\phi(z)\)
激活函数:
- sigmoid:\(f(x)=\dfrac{1}{1+e^{-x}}\quad f'(x)=f(x)(1-f(x))\)
- 问题:梯度过小,深度上升时导致梯度消失
- tanh:\(f(x)=\dfrac{1-e^{-2x}}{1+e^{-2x}}\quad f'(x)=1-f(x)^2\)
- ReLU:\(f(x)=\left\{\begin{array}{ll}0,&x\leqslant0,\\x,&x>0.\end{array}\right.\)
- softmax:\(y_i=\text{softmax}(x_i)=\dfrac{e^{x_i}}{\sum_{j=1}^ke^{x_j}}\)
- 应用:用于分类问题,输出值转概率