• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于提供图像反馈环境的协作深度Q学习框架

Cooperative Deep Q-Learning Framework for Environments Providing Image Feedback.

作者信息

Raghavan Krishnan, Narayanan Vignesh, Jagannathan Sarangapani

出版信息

IEEE Trans Neural Netw Learn Syst. 2024 Jul;35(7):9267-9276. doi: 10.1109/TNNLS.2022.3232069. Epub 2024 Jul 8.

DOI:10.1109/TNNLS.2022.3232069
PMID:37018575
Abstract

In this article, we address two key challenges in deep reinforcement learning (DRL) setting, sample inefficiency and slow learning, with a dual-neural network (NN)-driven learning approach. In the proposed approach, we use two deep NNs with independent initialization to robustly approximate the action-value function in the presence of image inputs. In particular, we develop a temporal difference (TD) error-driven learning (EDL) approach, where we introduce a set of linear transformations of the TD error to directly update the parameters of each layer in the deep NN. We demonstrate theoretically that the cost minimized by the EDL regime is an approximation of the empirical cost, and the approximation error reduces as learning progresses, irrespective of the size of the network. Using simulation analysis, we show that the proposed methods enable faster learning and convergence and require reduced buffer size (thereby increasing the sample efficiency).

摘要

在本文中,我们采用双神经网络驱动的学习方法,解决深度强化学习(DRL)环境中的两个关键挑战,即样本低效和学习缓慢问题。在所提出的方法中,我们使用两个独立初始化的深度神经网络,在存在图像输入的情况下稳健地逼近动作值函数。具体而言,我们开发了一种时间差分(TD)误差驱动学习(EDL)方法,其中我们引入了一组TD误差的线性变换,以直接更新深度神经网络中各层的参数。我们从理论上证明,由EDL机制最小化的成本是经验成本的近似值,并且无论网络大小如何,随着学习的进行,近似误差都会减小。通过仿真分析,我们表明所提出的方法能够实现更快的学习和收敛,并且所需的缓冲区大小更小(从而提高了样本效率)。

相似文献

1
Cooperative Deep Q-Learning Framework for Environments Providing Image Feedback.用于提供图像反馈环境的协作深度Q学习框架
IEEE Trans Neural Netw Learn Syst. 2024 Jul;35(7):9267-9276. doi: 10.1109/TNNLS.2022.3232069. Epub 2024 Jul 8.
2
Direct Error-Driven Learning for Deep Neural Networks With Applications to Big Data.基于直接错误驱动学习的深度神经网络及其在大数据中的应用。
IEEE Trans Neural Netw Learn Syst. 2020 May;31(5):1763-1770. doi: 10.1109/TNNLS.2019.2920964. Epub 2019 Jul 15.
3
The deep arbitrary polynomial chaos neural network or how Deep Artificial Neural Networks could benefit from data-driven homogeneous chaos theory.深度任意多项式混沌神经网络或深度人工神经网络如何从数据驱动的均匀混沌理论中受益。
Neural Netw. 2023 Sep;166:85-104. doi: 10.1016/j.neunet.2023.06.036. Epub 2023 Jul 10.
4
Deep convolutional neural network and IoT technology for healthcare.用于医疗保健的深度卷积神经网络和物联网技术。
Digit Health. 2024 Jan 17;10:20552076231220123. doi: 10.1177/20552076231220123. eCollection 2024 Jan-Dec.
5
Deep reinforcement learning for automated radiation adaptation in lung cancer.深度强化学习在肺癌放射自适应中的应用。
Med Phys. 2017 Dec;44(12):6690-6705. doi: 10.1002/mp.12625. Epub 2017 Nov 14.
6
Approximate Policy-Based Accelerated Deep Reinforcement Learning.基于近似策略的加速深度强化学习
IEEE Trans Neural Netw Learn Syst. 2020 Jun;31(6):1820-1830. doi: 10.1109/TNNLS.2019.2927227. Epub 2019 Aug 6.
7
Deep supervised dictionary learning by algorithm unrolling-Application to fast 2D dynamic MR image reconstruction.基于算法展开的深度监督字典学习——在快速二维动态磁共振图像重建中的应用
Med Phys. 2023 May;50(5):2939-2960. doi: 10.1002/mp.16182. Epub 2023 Jan 17.
8
Reinforcement learning neural-network-based controller for nonlinear discrete-time systems with input constraints.具有输入约束的非线性离散时间系统的基于强化学习神经网络的控制器
IEEE Trans Syst Man Cybern B Cybern. 2007 Apr;37(2):425-36. doi: 10.1109/tsmcb.2006.883869.
9
AQMDRL: Automatic Quality of Service Architecture Based on Multistep Deep Reinforcement Learning in Software-Defined Networking.基于多步深度强化学习的软件定义网络中自动服务质量架构(AQMDRL)。
Sensors (Basel). 2022 Dec 30;23(1):429. doi: 10.3390/s23010429.
10
Reinforcement learning output feedback NN control using deterministic learning technique.使用确定性学习技术的强化学习输出反馈神经网络控制。
IEEE Trans Neural Netw Learn Syst. 2014 Mar;25(3):635-41. doi: 10.1109/TNNLS.2013.2292704.