首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

无模型学习

/model-free Learning/
最后更新 2024-12-05
浏览 129
最后更新 2024-12-05
浏览 129
0 意见反馈 条目引用

不依赖于环境建模的学习算法。因缺少模型信息,无法直接获取环境的状态迁移概率和奖赏函数。因此,往往需要通过不断的采样来进行值函数、策略的评估与改进。

英文名称
model-free Learning
所属学科
计算机科学技术

无模型学习的典型方法有蒙特卡罗方法。

根据一条从开始到结束的多步采样轨迹,统计每个状态或状态动作对之后获得的奖惩总和,并通过多次采样后平均以逼近真实的状态值函数:①每出现一次(s,a),为Return(s,a)添加一条奖赏纪录R(s,a,s');②值函数更新;③策略改进。

蒙特卡罗方法示意图蒙特卡罗方法示意图

LHW-12-计算机-无模型学习.png

如图所示,蒙特卡罗方法采样了一条从开始到结束的多步轨迹。通过多次采样取平均,即可得到准确的无偏估计值。

模型未知。若采样的代价较大,则可以通过一定的采样为环境建模,从而采用基于模型的方法。

其优点是可以得到真实值函数的无偏估计。其缺点是时间代价较大,因为每次都要从开始走到结束才能进行值函数的更新。并且,很多时候无法设置任意中间状态为初始状态。

  • RICHARD SUTTON.Reinforcement Learning:an introduction.Andrew Barto.CamBridge:MIT Press,1998.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!