首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

有模型学习

/model-based learning/
条目作者陈兴国

陈兴国

最后更新 2024-12-05
浏览 121
最后更新 2024-12-05
浏览 121
0 意见反馈 条目引用

即在模型已知的环境中学习。又称动态规划方法(dynamic programming)。

英文名称
model-based learning
又称
动态规划方法
所属学科
计算机科学技术

“模型已知”即机器已对环境进行了建模。这时对任意状态和动作,在状态下执行动作转移的概率已知,该转移所带来的奖赏也是已知的。所以有模型学习已知环境和agent的显式模型,该模型描述了动作的结果和相关的奖赏值,并由此推断出最优策略。如果没有给定的模型,则需要通过采样等方式学习到模型的参数。

有模型学习根据有模型学习假定知道转换矩阵T,奖赏函数R以及定义环境模型的状态S和动作空间A,从而可以用T和R写出一个贝尔曼方程:


式中

动态规划方法动态规划方法

如图所示,动态规划方法根据环境的概率模型,从而计算所有可能的一步分支所获得奖惩返回值的加权和。上式是一种常见的基于值迭代的动态规划方法。也可以采用广义的策略迭代方法,即对某个稳定的策略进行多轮迭代运算,对该策略进行较为准确的评估,然后对评估后的值函数进行策略的改进,如此反复直到达成最优的值函数与最优的策略。①适用条件:已知环境的状态迁移概率和奖赏函数。②优点:已知模型,若不考虑计算的代价,则能得到较为准确的值函数。③缺点:要计算当前状态和动作下的所有可能的后续状态,其计算代价较大。

  • RICHARD SUTTON.Reinforcement Learning:an introduction.Andrew Barto.CamBridge:MIT Press,1998.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!