文献检索，用中文搜 PubMed

Suppr 超能文献

核心技术专利：CN118964589B侵权必究

Suppr 超能文献

核心技术专利：CN118964589B侵权必究

Department of Computer Science, University of York, York YO105DD, UK.

Neural Netw. 2010 May;23(4):541-50. doi: 10.1016/j.neunet.2010.01.001. Epub 2010 Jan 11.

Potential-based reward shaping has been shown to be a powerful method to improve the convergence rate of reinforcement learning agents. It is a flexible technique to incorporate background knowledge into temporal-difference learning in a principled way. However, the question remains of how to compute the potential function which is used to shape the reward that is given to the learning agent. In this paper, we show how, in the absence of knowledge to define the potential function manually, this function can be learned online in parallel with the actual reinforcement learning process. Two cases are considered. The first solution which is based on the multi-grid discretisation is designed for model-free reinforcement learning. In the second case, the approach for the prototypical model-based R-max algorithm is proposed. It learns the potential function using the free space assumption about the transitions in the environment. Two novel algorithms are presented and evaluated.

基于势的奖励塑造已被证明是一种提高强化学习代理收敛速度的有效方法。它是一种灵活的技术，可以以一种有原则的方式将背景知识纳入时间差分学习中。然而，问题仍然是如何计算用于塑造奖励的势函数，该奖励被给予学习代理。在本文中，我们展示了在没有知识手动定义势函数的情况下，如何在线学习该函数，与实际的强化学习过程并行。考虑了两种情况。第一种基于多网格离散化的解决方案是为无模型强化学习设计的。在第二种情况下，提出了基于原型的 R-max 算法的方法。它使用关于环境中转换的自由空间假设来学习势函数。提出并评估了两种新算法。

相似文献

Online learning of shaping rewards in reinforcement learning.强化学习中的塑造奖励在线学习。

Neural Netw. 2010 May;23(4):541-50. doi: 10.1016/j.neunet.2010.01.001. Epub 2010 Jan 11.

Optimal control in microgrid using multi-agent reinforcement learning.微电网中的多智能体强化学习最优控制。

ISA Trans. 2012 Nov;51(6):743-51. doi: 10.1016/j.isatra.2012.06.010. Epub 2012 Jul 21.

Reinforcement learning in supply chains.供应链中的强化学习。

Int J Neural Syst. 2009 Oct;19(5):331-44. doi: 10.1142/S0129065709002063.

Posterior weighted reinforcement learning with state uncertainty.具有状态不确定性的后加权强化学习。

Neural Comput. 2010 May;22(5):1149-79. doi: 10.1162/neco.2010.01-09-948.

Efficient model learning methods for actor-critic control.用于演员-评论家控制的高效模型学习方法。

IEEE Trans Syst Man Cybern B Cybern. 2012 Jun;42(3):591-602. doi: 10.1109/TSMCB.2011.2170565. Epub 2011 Dec 7.

Decentralized learning in Markov games.马尔可夫博弈中的分布式学习

IEEE Trans Syst Man Cybern B Cybern. 2008 Aug;38(4):976-81. doi: 10.1109/TSMCB.2008.920998.

Kernel-based least squares policy iteration for reinforcement learning.用于强化学习的基于核的最小二乘策略迭代

IEEE Trans Neural Netw. 2007 Jul;18(4):973-92. doi: 10.1109/TNN.2007.899161.

Model-based reinforcement learning under concurrent schedules of reinforcement in rodents.啮齿动物在并发强化程序下基于模型的强化学习

Learn Mem. 2009 Apr 29;16(5):315-23. doi: 10.1101/lm.1295509. Print 2009 May.

Artificial intelligence framework for simulating clinical decision-making: a Markov decision process approach.人工智能框架模拟临床决策：马尔可夫决策过程方法。

Artif Intell Med. 2013 Jan;57(1):9-19. doi: 10.1016/j.artmed.2012.12.003. Epub 2012 Dec 31.

Parameter-exploring policy gradients.参数探索策略梯度。

Neural Netw. 2010 May;23(4):551-9. doi: 10.1016/j.neunet.2009.12.004. Epub 2009 Dec 16.

引用本文的文献

Reinforcement-Learning-Based Robust Resource Management for Multi-Radio Systems.基于强化学习的多射频系统鲁棒资源管理。

Sensors (Basel). 2023 May 17;23(10):4821. doi: 10.3390/s23104821.

Route searching based on neural networks and heuristic reinforcement learning.基于神经网络和启发式强化学习的路径搜索

Cogn Neurodyn. 2017 Jun;11(3):245-258. doi: 10.1007/s11571-017-9423-7. Epub 2017 Feb 9.

Department of Computer Science, University of York, York YO105DD, UK.

Neural Netw. 2010 May;23(4):541-50. doi: 10.1016/j.neunet.2010.01.001. Epub 2010 Jan 11.

相似文献

Online learning of shaping rewards in reinforcement learning.强化学习中的塑造奖励在线学习。

Neural Netw. 2010 May;23(4):541-50. doi: 10.1016/j.neunet.2010.01.001. Epub 2010 Jan 11.

Optimal control in microgrid using multi-agent reinforcement learning.微电网中的多智能体强化学习最优控制。

ISA Trans. 2012 Nov;51(6):743-51. doi: 10.1016/j.isatra.2012.06.010. Epub 2012 Jul 21.

Reinforcement learning in supply chains.供应链中的强化学习。

Int J Neural Syst. 2009 Oct;19(5):331-44. doi: 10.1142/S0129065709002063.

Posterior weighted reinforcement learning with state uncertainty.具有状态不确定性的后加权强化学习。

Neural Comput. 2010 May;22(5):1149-79. doi: 10.1162/neco.2010.01-09-948.

Efficient model learning methods for actor-critic control.用于演员-评论家控制的高效模型学习方法。

IEEE Trans Syst Man Cybern B Cybern. 2012 Jun;42(3):591-602. doi: 10.1109/TSMCB.2011.2170565. Epub 2011 Dec 7.

Decentralized learning in Markov games.马尔可夫博弈中的分布式学习

IEEE Trans Syst Man Cybern B Cybern. 2008 Aug;38(4):976-81. doi: 10.1109/TSMCB.2008.920998.

Kernel-based least squares policy iteration for reinforcement learning.用于强化学习的基于核的最小二乘策略迭代

IEEE Trans Neural Netw. 2007 Jul;18(4):973-92. doi: 10.1109/TNN.2007.899161.

Model-based reinforcement learning under concurrent schedules of reinforcement in rodents.啮齿动物在并发强化程序下基于模型的强化学习

Learn Mem. 2009 Apr 29;16(5):315-23. doi: 10.1101/lm.1295509. Print 2009 May.

Artificial intelligence framework for simulating clinical decision-making: a Markov decision process approach.人工智能框架模拟临床决策：马尔可夫决策过程方法。

Artif Intell Med. 2013 Jan;57(1):9-19. doi: 10.1016/j.artmed.2012.12.003. Epub 2012 Dec 31.

Parameter-exploring policy gradients.参数探索策略梯度。

Neural Netw. 2010 May;23(4):551-9. doi: 10.1016/j.neunet.2009.12.004. Epub 2009 Dec 16.

引用本文的文献

Reinforcement-Learning-Based Robust Resource Management for Multi-Radio Systems.基于强化学习的多射频系统鲁棒资源管理。

Sensors (Basel). 2023 May 17;23(10):4821. doi: 10.3390/s23104821.

Route searching based on neural networks and heuristic reinforcement learning.基于神经网络和启发式强化学习的路径搜索

Cogn Neurodyn. 2017 Jun;11(3):245-258. doi: 10.1007/s11571-017-9423-7. Epub 2017 Feb 9.

Suppr 超能文献

文献检索

文件翻译

深度研究

Suppr 超能文献

文献检索

文件翻译

深度研究

强化学习中的塑造奖励在线学习。

Online learning of shaping rewards in reinforcement learning.

机构信息

出版信息

相似文献

引用本文的文献

强化学习中的塑造奖励在线学习。

Online learning of shaping rewards in reinforcement learning.

机构信息

出版信息

相似文献

引用本文的文献