此等式将“决策问题在特定时间点的值”以“来自初始选择的回报和由初始选择衍生的决策问题的值”的形式表示,把动态最优化问题分解成了更简单的子最优化问题,这遵循贝尔曼提出的“最优化原理”:一个最优策略的子策略对它的初态和终态而言也必是最优的。
贝尔曼等式通常指离散时间最优化问题中的动态规划方程。在连续时间最优化问题中,类似的等式是一个偏微分方程,被称为哈密尔顿-雅可比-贝尔曼等式。
在状态数有限的马尔可夫决策过程中,给定策略的值函数满足贝尔曼等式:
其中是从状态到行动的映射,
是在状态采取行动的立即回报,
是折扣因子,
是从状态开始执行所能获得的期望累积折扣回报。最优策略的值函数满足贝尔曼最优等式:
这两个等式均表达的是一个状态的值和它的立即回报以及后继状态值之间的一种递归关系。求解贝尔曼最优等式的方法有值迭代、策略迭代、异步动态规划等。这些动态规划方法计算量的需求会随状态变量数目的增加而呈指数级增长,即所谓的维数灾难。