“模型已知”即机器已对环境进行了建模。这时对任意状态和动作,在状态下执行动作转移的概率已知,该转移所带来的奖赏也是已知的。所以有模型学习已知环境和agent的显式模型,该模型描述了动作的结果和相关的奖赏值,并由此推断出最优策略。如果没有给定的模型,则需要通过采样等方式学习到模型的参数。
有模型学习根据有模型学习假定知道转换矩阵T,奖赏函数R以及定义环境模型的状态S和动作空间A,从而可以用T和R写出一个贝尔曼方程:
式中
如图所示,动态规划方法根据环境的概率模型,从而计算所有可能的一步分支所获得奖惩返回值的加权和。上式是一种常见的基于值迭代的动态规划方法。也可以采用广义的策略迭代方法,即对某个稳定的策略进行多轮迭代运算,对该策略进行较为准确的评估,然后对评估后的值函数进行策略的改进,如此反复直到达成最优的值函数与最优的策略。①适用条件:已知环境的状态迁移概率和奖赏函数。②优点:已知模型,若不考虑计算的代价,则能得到较为准确的值函数。③缺点:要计算当前状态和动作下的所有可能的后续状态,其计算代价较大。