• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于样本复用的奖励加权回归的强化学习中直接策略搜索

Reward-weighted regression with sample reuse for direct policy search in reinforcement learning.

机构信息

Tokyo Institute of Technology, O-okayama, Meguro-ku, Tokyo 152-8552, Japan.

出版信息

Neural Comput. 2011 Nov;23(11):2798-832. doi: 10.1162/NECO_a_00199. Epub 2011 Aug 18.

DOI:10.1162/NECO_a_00199
PMID:21851281
Abstract

Direct policy search is a promising reinforcement learning framework, in particular for controlling continuous, high-dimensional systems. Policy search often requires a large number of samples for obtaining a stable policy update estimator, and this is prohibitive when the sampling cost is expensive. In this letter, we extend an expectation-maximization-based policy search method so that previously collected samples can be efficiently reused. The usefulness of the proposed method, reward-weighted regression with sample reuse (R3), is demonstrated through robot learning experiments. (This letter is an extended version of our earlier conference paper: Hachiya, Peters, & Sugiyama, 2009 .).

摘要

直接策略搜索是一种很有前途的强化学习框架,特别适用于控制连续的、高维系统。策略搜索通常需要大量的样本才能获得稳定的策略更新估计值,而当采样成本很高时,这是不可行的。在这封信中,我们扩展了一种基于期望最大化的策略搜索方法,以便能够有效地重用以前收集的样本。通过机器人学习实验,验证了所提出的方法(具有样本重用的奖励加权回归(R3))的有效性。(这封信是我们之前的会议论文的扩展版本:Hachiya、Peters 和 Sugiyama,2009 年)。

相似文献

1
Reward-weighted regression with sample reuse for direct policy search in reinforcement learning.基于样本复用的奖励加权回归的强化学习中直接策略搜索
Neural Comput. 2011 Nov;23(11):2798-832. doi: 10.1162/NECO_a_00199. Epub 2011 Aug 18.
2
Efficient exploration through active learning for value function approximation in reinforcement learning.强化学习中基于主动学习的价值函数逼近的有效探索。
Neural Netw. 2010 Jun;23(5):639-48. doi: 10.1016/j.neunet.2009.12.010. Epub 2010 Jan 11.
3
Efficient sample reuse in policy gradients with parameter-based exploration.基于参数探索的策略梯度中高效的样本复用。
Neural Comput. 2013 Jun;25(6):1512-47. doi: 10.1162/NECO_a_00452. Epub 2013 Mar 21.
4
Adaptive importance sampling for value function approximation in off-policy reinforcement learning.基于非策略强化学习的价值函数逼近的自适应重要性采样。
Neural Netw. 2009 Dec;22(10):1399-410. doi: 10.1016/j.neunet.2009.01.002. Epub 2009 Jan 23.
5
Derivatives of logarithmic stationary distributions for policy gradient reinforcement learning.对数平稳分布的策略梯度强化学习衍生。
Neural Comput. 2010 Feb;22(2):342-76. doi: 10.1162/neco.2009.12-08-922.
6
Model-based reinforcement learning with dimension reduction.基于模型的降维强化学习。
Neural Netw. 2016 Dec;84:1-16. doi: 10.1016/j.neunet.2016.08.005. Epub 2016 Aug 24.
7
Autonomous reinforcement learning with experience replay.自主强化学习与经验回放。
Neural Netw. 2013 May;41:156-67. doi: 10.1016/j.neunet.2012.11.007. Epub 2012 Nov 29.
8
Posterior weighted reinforcement learning with state uncertainty.具有状态不确定性的后加权强化学习。
Neural Comput. 2010 May;22(5):1149-79. doi: 10.1162/neco.2010.01-09-948.
9
Integrating temporal difference methods and self-organizing neural networks for reinforcement learning with delayed evaluative feedback.将时间差分方法与自组织神经网络相结合用于具有延迟评估反馈的强化学习。
IEEE Trans Neural Netw. 2008 Feb;19(2):230-44. doi: 10.1109/TNN.2007.905839.
10
Dimensional reduction for reward-based learning.基于奖励学习的降维
Network. 2006 Sep;17(3):235-52. doi: 10.1080/09548980600773215.

引用本文的文献

1
Adaptive Baseline Enhances EM-Based Policy Search: Validation in a View-Based Positioning Task of a Smartphone Balancer.自适应基线增强基于期望最大化的策略搜索:在智能手机平衡器的基于视图的定位任务中的验证
Front Neurorobot. 2017 Jan 23;11:1. doi: 10.3389/fnbot.2017.00001. eCollection 2017.