强化学习问题通常由马尔可夫决策过程(Markov decision process,MDP)来表示。一个MDP由五元组组成,式中
为状态空间;
为动作空间;
为回报函数;
为状态转移函数;
为折扣因子。强化学习的学习目标是求取最优策略
,从而使得时序上的累计回报最大:
式中为对应于策略
的值函数。
一些经典的强化学习方法,如Q学习、SARSA学习等,都属于值函数估计方法,即通过对最优值函数进行估计,来间接求取最优策略
。而直接策略搜索方法则省略了估计最优值函数
的过程,直接对最优策略
来进行优化。为方便进行优化,往往需要利用高斯分布、线性模型、决策树及神经网络等参数模型对策略
进行参数化表示:
式中为模型参数,进而以值函数最大化为优化目标进行优化。
直接策略搜索方法包括基于梯度(gradient-based)的方法及不基于梯度(gradient-free)的方法两大类。基于梯度的方法又被称为策略梯度(policy-gradient)方法,其原理是利用随机梯度上升(stochastic gradient ascent)方法来进行优化。而不基于梯度的方法则不依赖梯度信息进行优化,如模拟退火方法(simulated annealing)、交叉熵搜索(cross-entropy search)及演化计算(evolutionary computation)等。