• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

隐式增量自然动作值函数评论家算法。

Implicit incremental natural actor critic algorithm.

机构信息

Osaka University, 2-1, Yamadaoka, Suita city, Osaka, Japan.

出版信息

Neural Netw. 2019 Jan;109:103-112. doi: 10.1016/j.neunet.2018.10.007. Epub 2018 Oct 21.

DOI:10.1016/j.neunet.2018.10.007
PMID:30408692
Abstract

Natural policy gradient (NPG) methods are promising approaches to finding locally optimal policy parameters. The NPG approach works well in optimizing complex policies with high-dimensional parameters, and the effectiveness of NPG methods has been demonstrated in many fields. However, the incremental estimation of the NPG is computationally unstable owing to its high sensitivity to the step-sizes values, especially to the one used to update the estimate of NPG. In this study, we propose a new incremental and stable algorithm for the NPG estimation. We call the proposed algorithm the implicit incremental natural actor critic (I2NAC), and it is based on the idea of the implicit update. The convergence analysis for I2NAC is provided. Theoretical analysis results indicate the stability of I2NAC and the instability of conventional incremental NPG methods. Numerical experiments were performed, and the results show that I2NAC is less sensitive to the values of the meta-parameters, including the step-size for the NPG update, compared to the existing incremental NPG method.

摘要

自然策略梯度(NPG)方法是寻找局部最优策略参数的一种很有前途的方法。NPG 方法在优化具有高维参数的复杂策略方面效果很好,并且其有效性已经在许多领域得到了证明。然而,由于其对步长值的高度敏感性,尤其是对用于更新 NPG 估计的步长值的敏感性,NPG 的增量估计在计算上是不稳定的。在这项研究中,我们提出了一种新的用于 NPG 估计的增量和稳定算法。我们称所提出的算法为隐式增量自然动作评论家(I2NAC),它基于隐式更新的思想。提供了对 I2NAC 的收敛性分析。理论分析结果表明了 I2NAC 的稳定性和传统增量 NPG 方法的不稳定性。进行了数值实验,结果表明,与现有的增量 NPG 方法相比,I2NAC 对元参数的值(包括 NPG 更新的步长)的敏感性较低。

相似文献

1
Implicit incremental natural actor critic algorithm.隐式增量自然动作值函数评论家算法。
Neural Netw. 2019 Jan;109:103-112. doi: 10.1016/j.neunet.2018.10.007. Epub 2018 Oct 21.
2
Actor-Critic Learning Control With Regularization and Feature Selection in Policy Gradient Estimation.策略梯度估计中具有正则化和特征选择的演员-评论家学习控制
IEEE Trans Neural Netw Learn Syst. 2021 Mar;32(3):1217-1227. doi: 10.1109/TNNLS.2020.2981377. Epub 2021 Mar 1.
3
Efficient model learning methods for actor-critic control.用于演员-评论家控制的高效模型学习方法。
IEEE Trans Syst Man Cybern B Cybern. 2012 Jun;42(3):591-602. doi: 10.1109/TSMCB.2011.2170565. Epub 2011 Dec 7.
4
Meta attention for Off-Policy Actor-Critic.用于离策略演员-评论家的元注意力机制
Neural Netw. 2023 Jun;163:86-96. doi: 10.1016/j.neunet.2023.03.024. Epub 2023 Mar 28.
5
Reinforcement learning in continuous time and space.连续时间与空间中的强化学习。
Neural Comput. 2000 Jan;12(1):219-45. doi: 10.1162/089976600300015961.
6
Optimal Policy of Multiplayer Poker via Actor-Critic Reinforcement Learning.通过演员-评论家强化学习实现多人扑克的最优策略
Entropy (Basel). 2022 May 30;24(6):774. doi: 10.3390/e24060774.
7
Continuous-time adaptive critics.连续时间自适应评论家。
IEEE Trans Neural Netw. 2007 May;18(3):631-47. doi: 10.1109/TNN.2006.889499.
8
Actor-Critic Learning Control Based on -Regularized Temporal-Difference Prediction With Gradient Correction.基于带梯度校正的正则化时间差分预测的演员-评论家学习控制
IEEE Trans Neural Netw Learn Syst. 2018 Dec;29(12):5899-5909. doi: 10.1109/TNNLS.2018.2808203. Epub 2018 Apr 5.
9
Adaptive optimal control of unknown constrained-input systems using policy iteration and neural networks.基于策略迭代和神经网络的未知约束输入系统自适应最优控制。
IEEE Trans Neural Netw Learn Syst. 2013 Oct;24(10):1513-25. doi: 10.1109/TNNLS.2013.2276571.
10
Network Architecture for Optimizing Deep Deterministic Policy Gradient Algorithms.用于优化深度确定性策略梯度算法的网络架构。
Comput Intell Neurosci. 2022 Nov 18;2022:1117781. doi: 10.1155/2022/1117781. eCollection 2022.