首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

模仿学习

/imitation learning/
条目作者俞扬

俞扬

最后更新 2022-01-20
浏览 171
最后更新 2022-01-20
浏览 171
0 意见反馈 条目引用

一种通过拟合专家提供的示范轨迹来完成策略学习的方法。

英文名称
imitation learning
所属学科
计算机科学技术

一个策略函数是从状态到动作的映射关系。例如在一个机器人自动导航问题中,策略函数决定了机器人在空间某个位置上向何处运动。模仿学习假定能够从专家处获得接近最优策略的采样轨迹,因而拟合这些轨迹就能够实现对最优策略的逼近。

模仿学习通过拟合专家轨迹进行学习。专家轨迹是从专家策略采样得到的状态-动作序列。如果将状态看成实例(instance),动作视为标记(label),那么模仿学习则可视为监督学习(supervised learning)的特例。与传统监督学习问题不同的是,由于状态-动作对之间存在着时序依赖关系,因而不满足独立同分布假设,在学习时需要对这种时序关系进行考虑。

反向强化学习(inverse reinforcement learning)是一种在强化学习(reinforcement learning)框架下间接进行模仿学习的方法。反向强化学习通过拟合专家轨迹来学习回报函数,进而根据回报函数进行强化学习来优化策略。这种方法能够很好地利用马尔可夫决策过程(Markov decision process,MDP)模型对时序关系进行建模,因而能够获得较好的模仿学习效果。另一方面,在反向强化学习迭代过程中,需要反复进行完整的强化学习,因而算法的时间开销较大。

直接模仿学习方法不对回报函数进行学习,而直接对策略进行拟合。相对于反向强化学习具有较高的效率。而如何利用好数据之间的时序依赖关系是提高算法性能的关键。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!