无模型学习的典型方法有蒙特卡罗方法。
首页
[{"ID":42422,"Name":"理学"},{"ID":81272,"Name":"计算机科学技术"},{"ID":81532,"Name":"人工智能"},{"ID":81533,"Name":"机器学习"},{"ID":81550,"Name":"弱监督学习"},{"ID":81552,"Name":"强化学习"}]
. 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习无模型学习
/model-free Learning/
最后更新 2024-12-05
浏览 129次
不依赖于环境建模的学习算法。因缺少模型信息,无法直接获取环境的状态迁移概率和奖赏函数。因此,往往需要通过不断的采样来进行值函数、策略的评估与改进。
- 英文名称
- model-free Learning
- 所属学科
- 计算机科学技术
根据一条从开始到结束的多步采样轨迹,统计每个状态或状态动作对之后获得的奖惩总和,并通过多次采样后平均以逼近真实的状态值函数:①每出现一次(s,a),为Return(s,a)添加一条奖赏纪录R(s,a,s');②值函数更新;③策略改进。
如图所示,蒙特卡罗方法采样了一条从开始到结束的多步轨迹。通过多次采样取平均,即可得到准确的无偏估计值。
模型未知。若采样的代价较大,则可以通过一定的采样为环境建模,从而采用基于模型的方法。
其优点是可以得到真实值函数的无偏估计。其缺点是时间代价较大,因为每次都要从开始走到结束才能进行值函数的更新。并且,很多时候无法设置任意中间状态为初始状态。
条目图册
扩展阅读
- RICHARD SUTTON.Reinforcement Learning:an introduction.Andrew Barto.CamBridge:MIT Press,1998.