英文简写为POMDP,是一种描述智能体在不确定性环境中序贯决策问题的数学模型。POMDP模型是马尔可夫决策过程的一种扩展形式,可表达环境的两类不确定性:行动效果的随机性和状态的部分可观察性。它源于运筹学领域,后在人工智能和智能规划等领域被广泛研究,可应用在移动机器人导航、家庭服务、人机对话管理、自动故障恢复、无人机避碰等诸多领域。
POMDP模型可定义为七元组:①状态集合;②行动集合;③观察集合;④状态转移函数;⑤回报函数,表示在状态采取行动转移到状态的概率;⑥观察函数,表示在状态采取行动能获得的期望立即回报;⑦折扣因子,表示智能体在采取行动转移到状态后得到观察的概率。POMDP规划的常见目标之一是找到最大化期望累积折扣回报的最优行动方案,其中的取值影响立即回报和未来回报在期望折扣累积回报中的重要程度。当时,智能体关注的是使期望立即回报最大化的行动;当的取值趋近1时,它更倾向选择能带来更大期望未来回报的行动。
由于状态不是完全可观察,智能体仅能推算出其在各个可能状态的概率。这个概率分布用信念状态描述。POMDP模型可看成定义在信念状态空间的马尔可夫决策过程。其策略是从信念状态到行动的映射。
POMDP规划算法可分为精确算法和近似算法。精确算法的目标是找到定义在所有信念状态上的最优行动方案,这类方法不能高效求解复杂的POMDP问题。近似算法可分为离线算法和在线算法。离线算法的目标是找到从初始信念状态开始的最优行动方案,代表性的算法有基于点的值迭代方法。在线算法的目标是计算当前信念状态处的最优行动方案,包括蒙特卡洛树搜索等方法。