主动强化学习

首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

/active reinforcement learning/

条目作者俞扬

俞扬

最后更新 2022-01-20

浏览 185次

最后更新 2022-01-20

浏览 185次

0 意见反馈条目引用

将主动学习[1]（active learning）思想引入强化学习（reinforcement learning）过程中，进而提高强化学习效率的一种学习方法。

英文名称: active reinforcement learning

所属学科: 计算机科学技术

与被动监督学习方法（passive supervised learning）不同，主动学习方法不假设全部数据被事先标注，而是主动挑选对学习最有帮助的示例进行标注，因而能够大大节约对数据进行标注的成本。其中的核心思想是选择当前学习过程中“不确定性”最高的示例进行标注。对应到强化学习，在强化学习过程中，“不确定的示例”对应于学习器经历较少的那些状态，而主动强化学习方法即在确定这些不确定状态后，集中对这些状态进行探索（exploration）。

一种重要的主动强化学习方法是“乐观探索”（optimistic exploration）[2][3],即对经历较少的状态赋予较大的假想回报值，进而鼓励学习器进入这些状态进行探索。这类方法不假设存在专家能够提供辅助的标记信息，而仍然依赖学习器自主对环境进行探索。一个潜在的研究方向是如何利用人的专家知识辅助学习器进行主动强化学习。

由于“探索-利用”（exploration and exploitation）问题是强化学习的核心问题，设计较好的探索机制是强化学习方法成功的关键因素，因而主动强化学习方法是强化学习研究中十分值得探索的方向之一。

扩展阅读

[1] Settles, Burr．“Active learning.” Synthesis Lectures on Artificial Intelligence and Machine Learning, 6(1):1–114, 2012.．
[2] Kearns, Michael and Singh, Satinder．Near-optimal reinforcement learning in polynomial time．Machine Learning, 49: 209–232, 200．
[3] Brafman, Ronen I. and Tennenholtz, Moshe．R-MAX - general polynomial time algorithm for near-optimal reinforcement learning．Journal of Machine Learning Research, 3:213-231, 200．