与被动监督学习方法(passive supervised learning)不同,主动学习方法不假设全部数据被事先标注,而是主动挑选对学习最有帮助的示例进行标注,因而能够大大节约对数据进行标注的成本。其中的核心思想是选择当前学习过程中“不确定性”最高的示例进行标注。对应到强化学习,在强化学习过程中,“不确定的示例”对应于学习器经历较少的那些状态,而主动强化学习方法即在确定这些不确定状态后,集中对这些状态进行探索(exploration)。
一种重要的主动强化学习方法是“乐观探索”(optimistic exploration)[2][3],即对经历较少的状态赋予较大的假想回报值,进而鼓励学习器进入这些状态进行探索。这类方法不假设存在专家能够提供辅助的标记信息,而仍然依赖学习器自主对环境进行探索。一个潜在的研究方向是如何利用人的专家知识辅助学习器进行主动强化学习。
由于“探索-利用”(exploration and exploitation)问题是强化学习的核心问题,设计较好的探索机制是强化学习方法成功的关键因素,因而主动强化学习方法是强化学习研究中十分值得探索的方向之一。