• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于核的强化学习分散式策略评估

Kernel-Based Decentralized Policy Evaluation for Reinforcement Learning.

作者信息

Liu Jiamin, Lian Heng

出版信息

IEEE Trans Neural Netw Learn Syst. 2025 Jun;36(6):10371-10380. doi: 10.1109/TNNLS.2024.3453036.

DOI:10.1109/TNNLS.2024.3453036
PMID:39288039
Abstract

We investigate the decentralized nonparametric policy evaluation problem within reinforcement learning (RL), focusing on scenarios where multiple agents collaborate to learn the state-value function using sampled state transitions and privately observed rewards. Our approach centers on a regression-based multistage iteration technique employing infinite-dimensional gradient descent (GD) within a reproducing kernel Hilbert space (RKHS). To make computation and communication more feasible, we employ Nyström approximation to project this space into a finite-dimensional one. We establish statistical error bounds to describe the convergence of value function estimation, marking the first instance of such analysis within a fully decentralized nonparametric framework. We compare the regression-based method to the kernel temporal difference (TD) method in some numerical studies.

摘要

我们研究强化学习(RL)中的分散式非参数策略评估问题,重点关注多个智能体协作使用采样状态转移和私有观察奖励来学习状态值函数的场景。我们的方法以一种基于回归的多阶段迭代技术为核心,该技术在再生核希尔伯特空间(RKHS)内采用无限维梯度下降(GD)。为了使计算和通信更可行,我们采用Nyström近似将此空间投影到有限维空间。我们建立统计误差界来描述值函数估计的收敛性,这是在完全分散的非参数框架内进行此类分析的首次实例。在一些数值研究中,我们将基于回归的方法与核时间差分(TD)方法进行了比较。

相似文献

1
Kernel-Based Decentralized Policy Evaluation for Reinforcement Learning.基于核的强化学习分散式策略评估
IEEE Trans Neural Netw Learn Syst. 2025 Jun;36(6):10371-10380. doi: 10.1109/TNNLS.2024.3453036.
2
Value iteration for streaming data on a continuous space with gradient method in an RKHS.在再生核希尔伯特空间中使用梯度方法对连续空间上的流数据进行值迭代。
Neural Netw. 2023 Sep;166:437-445. doi: 10.1016/j.neunet.2023.07.036. Epub 2023 Aug 2.
3
QC-ODKLA: Quantized and Communication- Censored Online Decentralized Kernel Learning via Linearized ADMM.QC-ODKLA:通过线性化交替方向乘子法实现的量化与通信受限在线分布式核学习
IEEE Trans Neural Netw Learn Syst. 2024 Dec;35(12):17987-17999. doi: 10.1109/TNNLS.2023.3310499. Epub 2024 Dec 2.
4
Hidden Brain State-based Internal Evaluation Using Kernel Inverse Reinforcement Learning in Brain-machine Interfaces.基于隐藏脑状态的脑机接口内部评估:使用核逆强化学习方法
IEEE Trans Neural Syst Rehabil Eng. 2024 Nov 21;PP. doi: 10.1109/TNSRE.2024.3503713.
5
Scalable Kernel Ordinal Regression via Doubly Stochastic Gradients.通过双重随机梯度实现可扩展内核序数回归
IEEE Trans Neural Netw Learn Syst. 2021 Aug;32(8):3677-3689. doi: 10.1109/TNNLS.2020.3015937. Epub 2021 Aug 3.
6
Online Gradient Descent for Kernel-Based Maximum Correntropy Criterion.基于核最大相关熵准则的在线梯度下降法
Entropy (Basel). 2019 Jun 29;21(7):644. doi: 10.3390/e21070644.
7
Intermediate Sensory Feedback Assisted Multi-Step Neural Decoding for Reinforcement Learning Based Brain-Machine Interfaces.基于强化学习的脑机接口的中间感觉反馈辅助多步神经解码。
IEEE Trans Neural Syst Rehabil Eng. 2022;30:2834-2844. doi: 10.1109/TNSRE.2022.3210700. Epub 2022 Oct 20.
8
The Connection Between Bayesian Estimation of a Gaussian Random Field and RKHS.贝叶斯估计高斯随机场与 RKHS 之间的联系。
IEEE Trans Neural Netw Learn Syst. 2015 Jul;26(7):1518-24. doi: 10.1109/TNNLS.2014.2337939. Epub 2014 Aug 5.
9
Biologically-Inspired Spike-Based Automatic Speech Recognition of Isolated Digits Over a Reproducing Kernel Hilbert Space.基于生物启发的尖峰信号在再生核希尔伯特空间上对孤立数字的自动语音识别
Front Neurosci. 2018 Apr 3;12:194. doi: 10.3389/fnins.2018.00194. eCollection 2018.
10
Kernel-Based Least Squares Temporal Difference With Gradient Correction.基于核的最小二乘时间差分与梯度校正。
IEEE Trans Neural Netw Learn Syst. 2016 Apr;27(4):771-82. doi: 10.1109/TNNLS.2015.2424233. Epub 2015 May 1.