是围绕学习主体与环境的交互过程,通过学习主体在环境中的试探行动与环境的回馈进行学习。相比于开环的无监督学习模式,以及需要额外信息的监督学习,强化学习通过试错的方式自主学习并自我优化的能力,是系统获得自适应能力的有效途径。
强化学习按照是否需要模型,分为需要模型的动态规划方法和不需要模型的蒙特卡罗方法和时间差分方法。
很多强化学习问题可以化为马尔可夫决策过程,其中环境的状态只取决于当前状态和选择的动作,因此可以利用现有的信息去预测未来的状态和该状态的期望回报。此时奖赏值函数只取决于当前状态和动作,与其他历史状态和动作无关。马尔可夫决策过程一般可以表示为一个四元组,式中
表示所有环境状态
构成的状态空间,环境状态
可由多个变量构成;
表示学习主体所能执行的所有动作
构成的集合;
,
为环境状态迁移概率函数,
表示主体在环境状态
中执行动作
后环境迁移到新环境状态
的概率;
,
为奖赏函数,
表示主体在环境状态
中执行动作
且环境迁移到环境状态
所能得到的奖赏,一般用
表示。
策略定义了强化学习主体的行为方式,简单地说,策略就是从环境感知的状态到可采用动作的一个映射。策略分为确定策略和随机策略,确定策略是从状态到动作的映射;随机策略是从状态、动作到概率的映射。强化学习的目标是获得一个最优策略,该最优策略能够获得最大的期望累积奖赏,通常也被称为回报,回报公式如下所示:
(1) |
很多强化学习问题是一个没有终止状态的问题,因此,回报值也会趋于无穷大。为了解决这个问题,强化学习中给出折扣回报的定义,公式如下:
(2) |
式中为参数,
,被称为折扣率。
越小表示主体越关心长期奖赏。值函数是关于回报的期望,因此,强化学习问题也可以转换为求解最优值函数的问题。值函数分为状态值函数
和动作值函数
,其中状态值函数
表示环境状态为
时的值,动作值函数
表示在环境状态
时,执行动作
的值。
与
的更新公式如式(3)和式(4)所示:
(3) |
(4) |
式中在强化学习中被称为学习率,其取值范围是
。