• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

强化学习中探索-利用元参数的控制

Control of exploitation-exploration meta-parameter in reinforcement learning.

作者信息

Ishii Shin, Yoshida Wako, Yoshimoto Junichiro

机构信息

Nara Institute of Science and Technology, Ikoma, Japan.

出版信息

Neural Netw. 2002 Jun-Jul;15(4-6):665-87. doi: 10.1016/s0893-6080(02)00056-4.

DOI:10.1016/s0893-6080(02)00056-4
PMID:12371519
Abstract

In reinforcement learning (RL), the duality between exploitation and exploration has long been an important issue. This paper presents a new method that controls the balance between exploitation and exploration. Our learning scheme is based on model-based RL, in which the Bayes inference with forgetting effect estimates the state-transition probability of the environment. The balance parameter, which corresponds to the randomness in action selection, is controlled based on variation of action results and perception of environmental change. When applied to maze tasks, our method successfully obtains good controls by adapting to environmental changes. Recently, Usher et al. [Science 283 (1999) 549] has suggested that noradrenergic neurons in the locus coeruleus may control the exploitation-exploration balance in a real brain and that the balance may correspond to the level of animal's selective attention. According to this scenario, we also discuss a possible implementation in the brain.

摘要

在强化学习(RL)中,利用与探索之间的二元性长期以来一直是一个重要问题。本文提出了一种控制利用与探索之间平衡的新方法。我们的学习方案基于基于模型的强化学习,其中具有遗忘效应的贝叶斯推理估计环境的状态转移概率。对应于动作选择中的随机性的平衡参数基于动作结果的变化和对环境变化的感知来控制。当应用于迷宫任务时,我们的方法通过适应环境变化成功获得了良好的控制。最近,厄舍等人[《科学》283(1999)549]提出,蓝斑中的去甲肾上腺素能神经元可能控制真实大脑中的利用-探索平衡,并且这种平衡可能对应于动物的选择性注意水平。根据这种情况,我们还讨论了在大脑中的一种可能实现方式。

相似文献

1
Control of exploitation-exploration meta-parameter in reinforcement learning.强化学习中探索-利用元参数的控制
Neural Netw. 2002 Jun-Jul;15(4-6):665-87. doi: 10.1016/s0893-6080(02)00056-4.
2
Pupil diameter predicts changes in the exploration-exploitation trade-off: evidence for the adaptive gain theory.瞳孔直径可预测探索-开发权衡的变化:对适应增益理论的证据。
J Cogn Neurosci. 2011 Jul;23(7):1587-96. doi: 10.1162/jocn.2010.21548. Epub 2010 Jul 28.
3
Novelty and Inductive Generalization in Human Reinforcement Learning.人类强化学习中的新颖性与归纳概括
Top Cogn Sci. 2015 Jul;7(3):391-415. doi: 10.1111/tops.12138. Epub 2015 Mar 23.
4
Quantum reinforcement learning.量子强化学习
IEEE Trans Syst Man Cybern B Cybern. 2008 Oct;38(5):1207-20. doi: 10.1109/TSMCB.2008.925743.
5
Exploration in neo-Hebbian reinforcement learning: Computational approaches to the exploration-exploitation balance with bio-inspired neural networks.神经拟态强化学习探索:基于生物启发神经网络的探索-利用平衡计算方法。
Neural Netw. 2022 Jul;151:16-33. doi: 10.1016/j.neunet.2022.03.021. Epub 2022 Mar 23.
6
Selective maintenance of value information helps resolve the exploration/exploitation dilemma.选择性地保留有价值的信息有助于解决探索/开发困境。
Cognition. 2019 Feb;183:226-243. doi: 10.1016/j.cognition.2018.11.004. Epub 2018 Nov 28.
7
Dopamine blockade impairs the exploration-exploitation trade-off in rats.多巴胺阻断会损害大鼠的探索-利用权衡。
Sci Rep. 2019 May 1;9(1):6770. doi: 10.1038/s41598-019-43245-z.
8
Pure correlates of exploration and exploitation in the human brain.人类大脑中探索与利用的纯粹关联因素。
Cogn Affect Behav Neurosci. 2018 Feb;18(1):117-126. doi: 10.3758/s13415-017-0556-2.
9
Deconstructing the human algorithms for exploration.解构人类的探索算法。
Cognition. 2018 Apr;173:34-42. doi: 10.1016/j.cognition.2017.12.014. Epub 2017 Dec 29.
10
Learning the value of information and reward over time when solving exploration-exploitation problems.随着时间的推移,在解决探索-开发问题时学习信息和奖励的价值。
Sci Rep. 2017 Dec 5;7(1):16919. doi: 10.1038/s41598-017-17237-w.

引用本文的文献

1
Dopamine and Norepinephrine Differentially Mediate the Exploration-Exploitation Tradeoff.多巴胺和去甲肾上腺素对探索-开发权衡的影响不同。
J Neurosci. 2024 Oct 30;44(44):e1194232024. doi: 10.1523/JNEUROSCI.1194-23.2024.
2
Federated inference and belief sharing.联邦推理与信念共享。
Neurosci Biobehav Rev. 2024 Jan;156:105500. doi: 10.1016/j.neubiorev.2023.105500. Epub 2023 Dec 5.
3
Enhancing reinforcement learning models by including direct and indirect pathways improves performance on striatal dependent tasks.通过包括直接和间接途径来增强强化学习模型可以提高纹状体依赖任务的性能。
PLoS Comput Biol. 2023 Aug 18;19(8):e1011385. doi: 10.1371/journal.pcbi.1011385. eCollection 2023 Aug.
4
Deep-reinforcement-learning-based water diversion strategy.基于深度强化学习的调水策略。
Environ Sci Ecotechnol. 2023 Jul 5;17:100298. doi: 10.1016/j.ese.2023.100298. eCollection 2024 Jan.
5
Entropy-Aware Model Initialization for Effective Exploration in Deep Reinforcement Learning.基于信息熵的深度强化学习中有效探索的模型初始化。
Sensors (Basel). 2022 Aug 4;22(15):5845. doi: 10.3390/s22155845.
6
Sex differences in learning from exploration.从探索中学习的性别差异。
Elife. 2021 Nov 19;10:e69748. doi: 10.7554/eLife.69748.
7
Novel pricing strategies for revenue maximization and demand learning using an exploration-exploitation framework.使用探索-利用框架实现收益最大化和需求学习的新型定价策略。
Soft comput. 2021;25(17):11711-11733. doi: 10.1007/s00500-021-06047-y. Epub 2021 Jul 25.
8
Adaptive Regulation of Motor Variability.运动可变性的自适应调节。
Curr Biol. 2019 Nov 4;29(21):3551-3562.e7. doi: 10.1016/j.cub.2019.08.052. Epub 2019 Oct 17.
9
Common neural code for reward and information value.奖励和信息价值的通用神经代码。
Proc Natl Acad Sci U S A. 2019 Jun 25;116(26):13061-13066. doi: 10.1073/pnas.1820145116. Epub 2019 Jun 11.
10
The hierarchically mechanistic mind: an evolutionary systems theory of the human brain, cognition, and behavior.层级机制思维:人类大脑、认知和行为的进化系统理论。
Cogn Affect Behav Neurosci. 2019 Dec;19(6):1319-1351. doi: 10.3758/s13415-019-00721-3.