模仿学习

首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

/imitation learning/

条目作者俞扬

俞扬

最后更新 2022-01-20

浏览 171次

最后更新 2022-01-20

浏览 171次

0 意见反馈条目引用

一种通过拟合专家提供的示范轨迹来完成策略学习的方法。

英文名称: imitation learning

所属学科: 计算机科学技术

一个策略函数 $π:S→A$ 是从状态到动作的映射关系。例如在一个机器人自动导航问题中，策略函数决定了机器人在空间某个位置上向何处运动。模仿学习假定能够从专家处获得接近最优策略的采样轨迹，因而拟合这些轨迹就能够实现对最优策略的逼近。

模仿学习通过拟合专家轨迹进行学习。专家轨迹是从专家策略 $π^*$ 采样得到的状态-动作序列。如果将状态看成实例（instance），动作视为标记（label），那么模仿学习则可视为监督学习（supervised learning）的特例。与传统监督学习问题不同的是，由于状态-动作对之间存在着时序依赖关系，因而不满足独立同分布假设，在学习时需要对这种时序关系进行考虑。

反向强化学习（inverse reinforcement learning）是一种在强化学习（reinforcement learning）框架下间接进行模仿学习的方法。反向强化学习通过拟合专家轨迹来学习回报函数 $R:S×A→r$ ，进而根据回报函数进行强化学习来优化策略。这种方法能够很好地利用马尔可夫决策过程（Markov decision process，MDP）模型对时序关系进行建模，因而能够获得较好的模仿学习效果。另一方面，在反向强化学习迭代过程中，需要反复进行完整的强化学习，因而算法的时间开销较大。

直接模仿学习方法不对回报函数进行学习，而直接对策略进行拟合。相对于反向强化学习具有较高的效率。而如何利用好数据之间的时序依赖关系是提高算法性能的关键。

模仿学习

俞扬

阅读历史

感谢您的反馈

模仿学习

俞扬

精选发现

相关条目

阅读历史

感谢您的反馈