部分可观测马尔可夫决策过程

首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 弱监督学习 . 强化学习

/partially observable markov decision process/

条目作者章宗长

章宗长

最后更新 2022-01-20

浏览 183次

最后更新 2022-01-20

浏览 183次

0 意见反馈条目引用

英文名称: partially observable markov decision process

所属学科: 计算机科学技术

英文简写为POMDP，是一种描述智能体在不确定性环境中序贯决策问题的数学模型。POMDP模型是马尔可夫决策过程的一种扩展形式，可表达环境的两类不确定性：行动效果的随机性和状态的部分可观察性。它源于运筹学领域，后在人工智能和智能规划等领域被广泛研究，可应用在移动机器人导航、家庭服务、人机对话管理、自动故障恢复、无人机避碰等诸多领域。

POMDP模型可定义为七元组:①状态集合；②行动集合；③观察集合；④状态转移函数；⑤回报函数，表示在状态采取行动转移到状态的概率；⑥观察函数，表示在状态采取行动能获得的期望立即回报；⑦折扣因子，表示智能体在采取行动转移到状态后得到观察的概率。POMDP规划的常见目标之一是找到最大化期望累积折扣回报的最优行动方案，其中的取值影响立即回报和未来回报在期望折扣累积回报中的重要程度。当时，智能体关注的是使期望立即回报最大化的行动；当的取值趋近1时，它更倾向选择能带来更大期望未来回报的行动。

由于状态不是完全可观察，智能体仅能推算出其在各个可能状态的概率。这个概率分布用信念状态描述。POMDP模型可看成定义在信念状态空间的马尔可夫决策过程。其策略是从信念状态到行动的映射。

POMDP规划算法可分为精确算法和近似算法。精确算法的目标是找到定义在所有信念状态上的最优行动方案，这类方法不能高效求解复杂的POMDP问题。近似算法可分为离线算法和在线算法。离线算法的目标是找到从初始信念状态开始的最优行动方案，代表性的算法有基于点的值迭代方法。在线算法的目标是计算当前信念状态处的最优行动方案，包括蒙特卡洛树搜索等方法。

部分可观测马尔可夫决策过程

章宗长

阅读历史

感谢您的反馈

部分可观测马尔可夫决策过程

章宗长

精选发现

相关条目

阅读历史

感谢您的反馈