基本概念

image.png|250

智能体：智能体是强化学习算法的主体，它能够根据经验做出主观判断并执行动作，是整个智能系统的核心

环境：智能体以外的一切统称为环境，环境在与智能体的交互中，能被智能体采取的动作影响，同时环境也能向智能体反馈状态和奖励。虽说智能体以外的一切都可视为环境，但在设计算法时常常会排除不相关的因素，建立一个理想的环境模型来对算法功能进行模拟

状态：状态可以理解为智能体对环境的一种理解和编码，通常包含对智能体所采取决策产生影响的信息

动作：动作是智能体对环境产生影响的方式，这里说的动作常常指概念上的动作，在设计机器人时还须考虑动作的执行机构

策略：策略是智能体在所处状态下执行某个动作的依据，即给定一个状态，智能体可根据一个策略来选择应该采取的动作

奖励：奖励是智能体序贯式采取一系列动作后从环境获得的收益。注意，奖励概念是现实中奖励和惩罚的统合，一般用正值代表实际奖励，用负值代表实际惩罚