• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

嵌入强化学习框架的卡尔曼滤波器控制

Kalman filter control embedded into the reinforcement learning framework.

作者信息

Szita István, Lorincz András

机构信息

Department of Information Systems, Eötvos Löránd University, Pázmány Péter sétány 1/C, H-1117 Budapest, Hungary.

出版信息

Neural Comput. 2004 Mar;16(3):491-9. doi: 10.1162/089976604772744884.

DOI:10.1162/089976604772744884
PMID:15022677
Abstract

There is a growing interest in using Kalman filter models in brain modeling. The question arises whether Kalman filter models can be used on-line not only for estimation but for control. The usual method of optimal control of Kalman filter makes use of off-line backward recursion, which is not satisfactory for this purpose. Here, it is shown that a slight modification of the linear-quadratic-gaussian Kalman filter model allows the on-line estimation of optimal control by using reinforcement learning and overcomes this difficulty. Moreover, the emerging learning rule for value estimation exhibits a Hebbian form, which is weighted by the error of the value estimation.

摘要

在脑建模中使用卡尔曼滤波器模型的兴趣与日俱增。问题在于卡尔曼滤波器模型是否不仅可以用于在线估计,还能用于控制。卡尔曼滤波器的常规最优控制方法采用离线反向递推,在此目的上并不令人满意。本文表明,对线性二次高斯卡尔曼滤波器模型进行轻微修改,通过强化学习可实现最优控制的在线估计,从而克服了这一困难。此外,新出现的价值估计学习规则呈现出赫布形式,其权重由价值估计的误差决定。

相似文献

1
Kalman filter control embedded into the reinforcement learning framework.嵌入强化学习框架的卡尔曼滤波器控制
Neural Comput. 2004 Mar;16(3):491-9. doi: 10.1162/089976604772744884.
2
Combining Hebbian and reinforcement learning in a minibrain model.在一个微型脑模型中结合赫布学习和强化学习。
Neural Netw. 2004 Jan;17(1):29-36. doi: 10.1016/j.neunet.2003.07.007.
3
Adaptive importance sampling for value function approximation in off-policy reinforcement learning.基于非策略强化学习的价值函数逼近的自适应重要性采样。
Neural Netw. 2009 Dec;22(10):1399-410. doi: 10.1016/j.neunet.2009.01.002. Epub 2009 Jan 23.
4
The Discriminative Kalman Filter for Bayesian Filtering with Nonlinear and Nongaussian Observation Models.用于具有非线性和非高斯观测模型的贝叶斯滤波的判别卡尔曼滤波器。
Neural Comput. 2020 May;32(5):969-1017. doi: 10.1162/neco_a_01275. Epub 2020 Mar 18.
5
A constrained neural network Kalman filter for price estimation in high frequency financial data.一种用于高频金融数据价格估计的约束神经网络卡尔曼滤波器。
Int J Neural Syst. 1997 Aug;8(4):399-415. doi: 10.1142/s0129065797000409.
6
A growing and pruning sequential learning algorithm of hyper basis function neural network for function approximation.超基函数神经网络用于函数逼近的生长和修剪序贯学习算法。
Neural Netw. 2013 Oct;46:210-26. doi: 10.1016/j.neunet.2013.06.004. Epub 2013 Jun 14.
7
Reinforcement learning with modulated spike timing dependent synaptic plasticity.基于调制的尖峰时间依赖突触可塑性的强化学习。
J Neurophysiol. 2007 Dec;98(6):3648-65. doi: 10.1152/jn.00364.2007. Epub 2007 Oct 10.
8
Dual extended Kalman filtering in recurrent neural networks(1).循环神经网络中的双扩展卡尔曼滤波(1)
Neural Netw. 2003 Mar;16(2):223-39. doi: 10.1016/s0893-6080(02)00230-7.
9
A neural observer with time-varying learning rate: analysis and applications.时变学习率的神经观测器:分析与应用。
Int J Neural Syst. 2014 Feb;24(1):1450011. doi: 10.1142/S0129065714500117. Epub 2013 Dec 11.
10
A spiking neural network model of an actor-critic learning agent.一种基于演员-评论家学习智能体的脉冲神经网络模型。
Neural Comput. 2009 Feb;21(2):301-39. doi: 10.1162/neco.2008.08-07-593.

引用本文的文献

1
A Kalman filtering approach to the representation of kinematic quantities by the hippocampal-entorhinal complex.基于 Kalman 滤波的海马-内嗅皮层对运动学量的表示方法。
Cogn Neurodyn. 2010 Dec;4(4):315-35. doi: 10.1007/s11571-010-9115-z. Epub 2010 Jun 8.