基本概念

image.png|250

智能体:智能体是强化学习算法的主体,它能够根据经验做出主观判断并执行动作,是整个智能系统的核心

环境:智能体以外的一切统称为环境,环境在与智能体的交互中,能被智能体采取的动作影响,同时环境也能向智能体反馈状态和奖励。虽说智能体以外的一切都可视为环境,但在设计算法时常常会排除不相关的因素,建立一个理想的环境模型来对算法功能进行模拟

状态:状态可以理解为智能体对环境的一种理解和编码,通常包含对智能体所采取决策产生影响的信息

动作:动作是智能体对环境产生影响的方式,这里说的动作常常指概念上的动作,在设计机器人时还须考虑动作的执行机构

策略:策略是智能体在所处状态下执行某个动作的依据,即给定一个状态,智能体可根据一个策略来选择应该采取的动作

奖励:奖励是智能体序贯式采取一系列动作后从环境获得的收益。注意,奖励概念是现实中奖励和惩罚的统合,一般用正值代表实际奖励,用负值代表实际惩罚