• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

马尔可夫决策过程的相对层次分解。

Relativized hierarchical decomposition of Markov decision processes.

机构信息

Department of Computer Science and Engineering, Indian Institute of Technology Madras, Chennai, India.

出版信息

Prog Brain Res. 2013;202:465-88. doi: 10.1016/B978-0-444-62604-2.00023-X.

DOI:10.1016/B978-0-444-62604-2.00023-X
PMID:23317845
Abstract

Reinforcement Learning (RL) is a popular paradigm for sequential decision making under uncertainty. A typical RL algorithm operates with only limited knowledge of the environment and with limited feedback on the quality of the decisions. To operate effectively in complex environments, learning agents require the ability to form useful abstractions, that is, the ability to selectively ignore irrelevant details. It is difficult to derive a single representation that is useful for a large problem setting. In this chapter, we describe a hierarchical RL framework that incorporates an algebraic framework for modeling task-specific abstraction. The basic notion that we will explore is that of a homomorphism of a Markov Decision Process (MDP). We mention various extensions of the basic MDP homomorphism framework in order to accommodate different commonly understood notions of abstraction, namely, aspects of selective attention. Parts of the work described in this chapter have been reported earlier in several papers (Narayanmurthy and Ravindran, 2007, 2008; Ravindran and Barto, 2002, 2003a,b; Ravindran et al., 2007).

摘要

强化学习(RL)是一种在不确定环境下进行序列决策的流行范例。典型的 RL 算法仅对环境有有限的了解,并且对决策质量的反馈也有限。为了在复杂环境中有效运作,学习代理需要形成有用的抽象的能力,即选择性忽略不相关细节的能力。很难推导出对大型问题设置有用的单一表示形式。在本章中,我们描述了一个分层 RL 框架,该框架包含用于对任务特定抽象进行建模的代数框架。我们将探索的基本概念是马尔可夫决策过程(MDP)的同态。我们提到了基本 MDP 同态框架的各种扩展,以适应不同的通常理解的抽象概念,即选择性注意的各个方面。本章中描述的部分工作已在几篇论文中进行了报道(Narayanmurthy 和 Ravindran,2007 年,2008 年;Ravindran 和 Barto,2002 年,2003a,b;Ravindran 等人,2007 年)。

相似文献

1
Relativized hierarchical decomposition of Markov decision processes.马尔可夫决策过程的相对层次分解。
Prog Brain Res. 2013;202:465-88. doi: 10.1016/B978-0-444-62604-2.00023-X.
2
Adaptive learning via selectionism and Bayesianism, Part II: the sequential case.基于选择主义和贝叶斯主义的适应性学习,第二部分:序列情形。
Neural Netw. 2009 Apr;22(3):229-36. doi: 10.1016/j.neunet.2009.03.017. Epub 2009 Apr 5.
3
Hierarchical approximate policy iteration with binary-tree state space decomposition.基于二叉树状态空间分解的分层近似策略迭代
IEEE Trans Neural Netw. 2011 Dec;22(12):1863-77. doi: 10.1109/TNN.2011.2168422. Epub 2011 Oct 10.
4
Artificial intelligence framework for simulating clinical decision-making: a Markov decision process approach.人工智能框架模拟临床决策:马尔可夫决策过程方法。
Artif Intell Med. 2013 Jan;57(1):9-19. doi: 10.1016/j.artmed.2012.12.003. Epub 2012 Dec 31.
5
Partially observable Markov decision processes and performance sensitivity analysis.部分可观测马尔可夫决策过程与性能灵敏度分析。
IEEE Trans Syst Man Cybern B Cybern. 2008 Dec;38(6):1645-51. doi: 10.1109/TSMCB.2008.927711.
6
Hierarchical reinforcement learning and decision making.分层强化学习与决策。
Curr Opin Neurobiol. 2012 Dec;22(6):956-62. doi: 10.1016/j.conb.2012.05.008. Epub 2012 Jun 11.
7
Prioritizing point-based POMDP solvers.优先考虑基于点的部分可观测马尔可夫决策过程(POMDP)求解器。
IEEE Trans Syst Man Cybern B Cybern. 2008 Dec;38(6):1592-605. doi: 10.1109/TSMCB.2008.928222.
8
Model-based reinforcement learning for partially observable games with sampling-based state estimation.基于模型的强化学习在基于采样状态估计的部分可观测博弈中的应用
Neural Comput. 2007 Nov;19(11):3051-87. doi: 10.1162/neco.2007.19.11.3051.
9
Human and machine learning in non-Markovian decision making.非马尔可夫决策中的人类与机器学习
PLoS One. 2015 Apr 21;10(4):e0123105. doi: 10.1371/journal.pone.0123105. eCollection 2015.
10
Context transfer in reinforcement learning using action-value functions.基于动作值函数的强化学习中的上下文转移
Comput Intell Neurosci. 2014;2014:428567. doi: 10.1155/2014/428567. Epub 2014 Dec 31.

引用本文的文献

1
Active inference and learning.主动推理与学习
Neurosci Biobehav Rev. 2016 Sep;68:862-879. doi: 10.1016/j.neubiorev.2016.06.022. Epub 2016 Jun 29.