Suppr超能文献

部分可观测马尔可夫决策过程与性能灵敏度分析。

Partially observable Markov decision processes and performance sensitivity analysis.

作者信息

Li Yanjie, Yin Baoqun, Xi Hongsheng

机构信息

Department of Automation, University of Science and Technology of China, Hefei 230026, China.

出版信息

IEEE Trans Syst Man Cybern B Cybern. 2008 Dec;38(6):1645-51. doi: 10.1109/TSMCB.2008.927711.

Abstract

The sensitivity-based optimization of Markov systems has become an increasingly important area. From the perspective of performance sensitivity analysis, policy-iteration algorithms and gradient estimation methods can be directly obtained for Markov decision processes (MDPs). In this correspondence, the sensitivity-based optimization is extended to average reward partially observable MDPs (POMDPs). We derive the performance-difference and performance-derivative formulas of POMDPs. On the basis of the performance-derivative formula, we present a new method to estimate the performance gradients. From the performance-difference formula, we obtain a sufficient optimality condition without the discounted reward formulation. We also propose a policy-iteration algorithm to obtain a nearly optimal finite-state-controller policy.

摘要

基于灵敏度的马尔可夫系统优化已成为一个日益重要的领域。从性能灵敏度分析的角度来看,可直接获得马尔可夫决策过程(MDP)的策略迭代算法和梯度估计方法。在本通信中,基于灵敏度的优化被扩展到平均奖励部分可观测MDP(POMDP)。我们推导了POMDP的性能差异和性能导数公式。基于性能导数公式,我们提出了一种估计性能梯度的新方法。从性能差异公式中,我们得到了一个无需折扣奖励公式的充分最优性条件。我们还提出了一种策略迭代算法来获得一个近似最优的有限状态控制器策略。

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验