首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

强化学习

/reinforcement learning/
条目作者章宗长

章宗长

最后更新 2024-12-13
浏览 505
最后更新 2024-12-13
浏览 505
0 意见反馈 条目引用

一种重要的机器学习方法。从动物行为心理学发展而来,与运筹学、演化计算、最优控制、神经网络、博弈论、统计学、信息论等学科领域有密切的联系。又称再励学习、激励学习、增强学习、评价学习。

英文名称
reinforcement learning
又称
再励学习、激励学习、增强学习、评价学习
所属学科
计算机科学技术

运筹学和最优控制中的强化学习又称近似动态规划,人工智能领域的强化学习又称计算强化学习。

强化学习要解决的是智能体在未知环境中如何通过与环境交互实现对环境的最优控制问题。它强调与环境交互中的试错和改进,不需要环境模型即可利用环境提供的评价式反馈(又称回报、强化信号)实现无教师的在线学习,是介于监督学习和非监督学习之间的第三类学习方法。这三类学习方法的区别主要表现在由环境提供的反馈信号上。在监督学习中,环境需要为智能体提供形如“特征-标记”的教师信号;在无监督学习中,环境只需要提供形如“特征”的训练信息;而在强化学习中,环境提供的是对智能体行动好坏的一种评价(通常为形如“奖赏/惩罚”的标量信号),而不是告诉智能体如何产生正确的行动。由于环境仅提供了弱的反馈信号,智能体必须靠主动对环境做出试探进行学习。通过这种方式,智能体在行动-评价的环境中获得知识,改进行动方案以适应环境。

强化学习把学习看作试探过程,遵循心理学家E.L.桑代克(Edward Lee Thorndike)提出的效应定律(law of effect):能产生正回报的行动,其选择概率将增加,而产生负回报的行动,其选择概率将减小。效应定律包含了试错学习的两个主要方面:选择性(探索)和关联性(利用)。选择性指尝试学习不同行动并比较其效果,关联性指将可选择的行动和特定的状态联系在一起。演化计算中的自然选择具有选择性,但不具有关联性;监督学习则仅具有关联性而不具有选择性。另外,效应定律还反映了强化学习的另外两个重要特性,即搜索和记忆。

强化学习与最优控制关系密切。最优控制利用值函数和动态规划方法求解复杂的序贯决策问题(通常建模为马尔可夫决策问题)。动态规划方法通过求解贝尔曼等式来解决最优控制问题。这将导致维数灾难的问题。不能简单地将优化控制认为是强化学习。这是因为在最优控制中强调的是在环境模型(如状态转移和回报函数模型)已知的情况下求解最优策略,而强化学习强调的是在环境模型未知的情况下利用在交互中环境提供的评价式反馈学习最优策略。在最优控制中得到普遍关注的辨识和控制的关系类似强化学习中的行为探索和利用的关系。

与强化学习关系密切的另一个研究内容是时间差分学习。时间差分指的是在连续的两个不同时刻,对同一事件或变量观测的差值,这一概念来自动物行为心理学中有关二次刺激的研究。时间差分学习是求解多步预测问题的一类有效方法。早在1959年,塞缪尔(Samuel)就成功地将时间差分学习用于西洋跳棋。随后,萨顿(Sutton)等人对时间差分学习做了更细致的研究,提出了不同的改进算法,并有大量应用。1989年,沃特金斯(Watkins)将最优控制和时间差分学习结合,提出了Q学习算法。

强化学习研究的难点之一是怎样解决大规模和复杂应用中的维数灾难问题。常用的解决方法有:值函数逼近、策略直接搜索、分层强化学习、关系强化学习、迁移强化学习等。另有不少学者研究基于部分可观测马尔可夫决策过程、多智能体环境等不满足马尔可夫属性的强化学习方法,以及从人类专家提供的范例数据中反推出回报函数的逆强化学习方法。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!