强化学习

首页 . 工学 . 控制科学与工程 . 交叉学科中的控制 . 神经反馈与康复

/reinforcement learning/

条目作者周宗潭刘亚东

条目作者周宗潭

周宗潭

刘亚东

最后更新 2023-06-05

浏览 349次

最后更新 2023-06-05

浏览 349次

0 意见反馈条目引用

一种从动物学习、参数扰动、自适应控制等理论发展而来并且得到广泛应用的学习方法。

英文名称: reinforcement learning

所属学科: 控制科学与工程

是围绕学习主体与环境的交互过程，通过学习主体在环境中的试探行动与环境的回馈进行学习。相比于开环的无监督学习模式，以及需要额外信息的监督学习，强化学习通过试错的方式自主学习并自我优化的能力，是系统获得自适应能力的有效途径。

强化学习按照是否需要模型，分为需要模型的动态规划方法和不需要模型的蒙特卡罗方法和时间差分方法。

很多强化学习问题可以化为马尔可夫决策过程，其中环境的状态只取决于当前状态和选择的动作，因此可以利用现有的信息去预测未来的状态和该状态的期望回报。此时奖赏值函数只取决于当前状态和动作，与其他历史状态和动作无关。马尔可夫决策过程一般可以表示为一个四元组 $（S,A,T,R）$ ，式中 $S$ 表示所有环境状态 $s$ 构成的状态空间，环境状态 $s$ 可由多个变量构成； $A$ 表示学习主体所能执行的所有动作 $a$ 构成的集合； $T: S \times A \times S \rightarrow [0,1]$ ， $T$ 为环境状态迁移概率函数， $T(s,a,s')$ 表示主体在环境状态 $s$ 中执行动作 $a$ 后环境迁移到新环境状态 $s'$ 的概率； $R: S \times A \times S \rightarrow r$ ， $R$ 为奖赏函数， $R(s,a,s')$ 表示主体在环境状态 $s$ 中执行动作 $a$ 且环境迁移到环境状态 $s'$ 所能得到的奖赏，一般用 $r$ 表示。

策略定义了强化学习主体的行为方式，简单地说，策略就是从环境感知的状态到可采用动作的一个映射。策略分为确定策略和随机策略，确定策略是从状态到动作的映射；随机策略是从状态、动作到概率的映射。强化学习的目标是获得一个最优策略，该最优策略能够获得最大的期望累积奖赏，通常也被称为回报，回报公式如下所示：

$R_t =\sum_{k=0}^{\infty} r_{t+k}$

(1)

很多强化学习问题是一个没有终止状态的问题，因此，回报值也会趋于无穷大。为了解决这个问题，强化学习中给出折扣回报的定义，公式如下：

$R_t =\sum_{k=0}^{\infty} \gamma^k r_{t+k}$

(2)

式中 $\gamma$ 为参数， $0 \leqslant \gamma < 1$ ，被称为折扣率。

$\gamma$ 越小表示主体越关心长期奖赏。值函数是关于回报的期望，因此，强化学习问题也可以转换为求解最优值函数的问题。值函数分为状态值函数 $V(s)$ 和动作值函数 $Q(s,a)$ ，其中状态值函数 $V(s)$ 表示环境状态为 $s$ 时的值，动作值函数 $Q(s,a)$ 表示在环境状态 $s$ 时，执行动作 $a$ 的值。 $Q(s,a)$ 与 $V(s)$ 的更新公式如式（3）和式（4）所示：

$Q(s_{t+1},a_{t+1}) = Q(s_t,a_t)+\alpha(r_{t+1}-Q(s_t,a_t))$

(3)

$V(s_{t+1}) = V(s_t)+\alpha(V(s'_t)-V(s_t))$

(4)

式中 $\alpha$ 在强化学习中被称为学习率，其取值范围是 $0< \alpha \leqslant 1$ 。

扩展阅读

KAELBLING L P, LITTMAN M L, MOORE A W．Reinforcement Learning: A Survey．Journal of Artificial Intelligence Research，1996，4：237-285．

强化学习

周宗潭

刘亚东

扩展阅读

阅读历史

感谢您的反馈

强化学习

周宗潭

刘亚东

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈