一个策略函数是从状态到动作的映射关系。例如在一个机器人自动导航问题中,策略函数决定了机器人在空间某个位置上向何处运动。模仿学习假定能够从专家处获得接近最优策略的采样轨迹,因而拟合这些轨迹就能够实现对最优策略的逼近。
模仿学习通过拟合专家轨迹进行学习。专家轨迹是从专家策略采样得到的状态-动作序列。如果将状态看成实例(instance),动作视为标记(label),那么模仿学习则可视为监督学习(supervised learning)的特例。与传统监督学习问题不同的是,由于状态-动作对之间存在着时序依赖关系,因而不满足独立同分布假设,在学习时需要对这种时序关系进行考虑。
反向强化学习(inverse reinforcement learning)是一种在强化学习(reinforcement learning)框架下间接进行模仿学习的方法。反向强化学习通过拟合专家轨迹来学习回报函数,进而根据回报函数进行强化学习来优化策略。这种方法能够很好地利用马尔可夫决策过程(Markov decision process,MDP)模型对时序关系进行建模,因而能够获得较好的模仿学习效果。另一方面,在反向强化学习迭代过程中,需要反复进行完整的强化学习,因而算法的时间开销较大。
直接模仿学习方法不对回报函数进行学习,而直接对策略进行拟合。相对于反向强化学习具有较高的效率。而如何利用好数据之间的时序依赖关系是提高算法性能的关键。