强化学习方法
思路:从一个任意的策略开始,首先 计算该策略下的价值函数(或动作一价值函数),然后根据价值函数调整、改进策略使其更优,不断迭代这个过程,直到策略收敛
- 策略评估:通过策略计算价值函数
- 策略优化:通过价值函数优化策略
- 策略迭代:策略评估和策略优化交替进行的强化学习求解方法
策略优化定理:
例:
故将
策略评估方法:根据策略
- 方法
- DP
- MC
- 时序差分
- 本质:求解贝尔曼方程组
- 高斯消元
- Gauss-Seidel迭代
DP:
- 状态转移方程:
- 算法:
MC:大数定理指出,对于独立同分布的样本数据,当样本足够大时,样本平均值向期望值收敛
- 给定状态
,从该状态出发不断采样后续状态,得到不同的状态序列,通过这些采样序列来分别计算状态 的回报值,将这些回报值的均值作为对状态 的价值函数的估计 - 算法:
时序差分:蒙特卡洛方法和动态规划方法的有机结合
- 更新公式:
- 算法:
Q-Learning:直接记录和更新动作-价值函数
- 更新公式:
- 算法:
- 策略:
- 算法:
参数化
如果使用深度神经网络来拟合动作-价值函数则称为deep-Q learning
问题:
- 采样不足
- 难以收敛
DQN:
- 损失函数:
- 网络结构:
策略梯度定理:策略函数
在状态s下选择动作a的概率,评估 - 梯度:
其中
基于MC的策略梯度法:
- 公式:
-
REINFORCE算法
-
Actor-Critic算法:从时序差分角度进行设计,时序差分与蒙特卡洛采样的核心差别在于使用下一时刻状态的价值函数来估计当前状态的价值函数,而不是使用整个片段的反馈值
- 使用
代替
- 使用
应用:AlphaGo