概述

历史:

  • 神经网络基本单元:MCP神经元
  • 神经元因何链接:赫布理论
  • 神经元链接成”网“:感知机模型
  • 神经元之间刺激可层层递进学习:误差后向传播
  • 逐层抽象、层层递进:深度学习
  • 引发AI第三次崛起:语言大模型

前馈神经网络:

  • 神经元:MCP模型
    • 性质:具有兴奋与抑制两种状态
    • 结构:\(y=\Phi(\sum_{i=1}^nw_ix_i)\) image.png
  • 概念:全连接
  • 性质:
    • 层层递进、逐层抽象
    • 非线映射
    • 误差反馈调优

感知机:

  • 加权求和,累加偏置: $$ z=w_1x_1+\cdots+b $$
  • 传入激活函数,得到\(\phi(z)\)

激活函数:

  • sigmoid:\(f(x)=\dfrac{1}{1+e^{-x}}\quad f'(x)=f(x)(1-f(x))\)
    • 问题:梯度过小,深度上升时导致梯度消失
  • tanh:\(f(x)=\dfrac{1-e^{-2x}}{1+e^{-2x}}\quad f'(x)=1-f(x)^2\)
  • ReLU:\(f(x)=\left\{\begin{array}{ll}0,&x\leqslant0,\\x,&x>0.\end{array}\right.\)
  • softmax:\(y_i=\text{softmax}(x_i)=\dfrac{e^{x_i}}{\sum_{j=1}^ke^{x_j}}\)
    • 应用:用于分类问题,输出值转概率