强化学习常常被归为机器学习方法的一种。实际上,这种方法在控制理论领域也是研究热点,自适应动态规划也可以被看作强化学习的一种方法。在智能控制中,对于存在不确定模型的控制问题,由于系统的不确定性和复杂非线性,使得基于数学模型的传统控制方法的效果甚微。强化学习因其学习原理比较符合人脑的学习过程,其控制方法已经在智能机器人中获得广泛应用。
1956年M.华尔兹(M.Waltz)等人提出了类似于强化学习的思想。A.G.巴尔托(A.G.Barto)于1983年将强化学习应用到控制系统中,采用关联搜索元和自适应评估元构成评估系统,经过反复学习,可以长时间地维持倒立摆系统的平衡状态。S.P.辛格(S.P.Singh)提出采用随机逼近的方法来解决最优控制问题。已有大量文献报道了强化学习在控制系统中的应用,采用的强化学习方法主要有Q学习方法、AHC学习算法以及最小二乘策略迭代法等。