首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

直接策略搜索

/direct policy search/
条目作者俞扬

俞扬

最后更新 2022-01-20
浏览 134
最后更新 2022-01-20
浏览 134
0 意见反馈 条目引用

一类不依赖值函数估计,而直接对策略进行优化的强化学习算法。

英文名称
direct policy search
所属学科
计算机科学技术

强化学习问题通常由马尔可夫决策过程(Markov decision process,MDP)来表示。一个MDP由五元组组成,式中为状态空间;为动作空间;为回报函数;为状态转移函数;为折扣因子。强化学习的学习目标是求取最优策略,从而使得时序上的累计回报最大: 

式中为对应于策略的值函数。

一些经典的强化学习方法,如Q学习、SARSA学习等,都属于值函数估计方法,即通过对最优值函数进行估计,来间接求取最优策略。而直接策略搜索方法则省略了估计最优值函数的过程,直接对最优策略来进行优化。为方便进行优化,往往需要利用高斯分布、线性模型、决策树及神经网络等参数模型对策略进行参数化表示:


式中为模型参数,进而以值函数最大化为优化目标进行优化。

直接策略搜索方法包括基于梯度(gradient-based)的方法及不基于梯度(gradient-free)的方法两大类。基于梯度的方法又被称为策略梯度(policy-gradient)方法,其原理是利用随机梯度上升(stochastic gradient ascent)方法来进行优化。而不基于梯度的方法则不依赖梯度信息进行优化,如模拟退火方法(simulated annealing)、交叉熵搜索(cross-entropy search)及演化计算(evolutionary computation)等。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!