• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

奖励预测误差神经元为奖励实施了一种有效的编码。

Reward prediction error neurons implement an efficient code for reward.

机构信息

Center for Neural Science and Department of Psychology, New York University, New York, NY, USA.

Department of Behavioural and Cognitive Sciences, Université du Luxembourg, Esch-Belval, Luxembourg.

出版信息

Nat Neurosci. 2024 Jul;27(7):1333-1339. doi: 10.1038/s41593-024-01671-x. Epub 2024 Jun 19.

DOI:10.1038/s41593-024-01671-x
PMID:38898182
Abstract

We use efficient coding principles borrowed from sensory neuroscience to derive the optimal neural population to encode a reward distribution. We show that the responses of dopaminergic reward prediction error neurons in mouse and macaque are similar to those of the efficient code in the following ways: the neurons have a broad distribution of midpoints covering the reward distribution; neurons with higher thresholds have higher gains, more convex tuning functions and lower slopes; and their slope is higher when the reward distribution is narrower. Furthermore, we derive learning rules that converge to the efficient code. The learning rule for the position of the neuron on the reward axis closely resembles distributional reinforcement learning. Thus, reward prediction error neuron responses may be optimized to broadcast an efficient reward signal, forming a connection between efficient coding and reinforcement learning, two of the most successful theories in computational neuroscience.

摘要

我们借鉴感觉神经科学中的高效编码原理,推导出最优的神经群体来编码奖励分布。我们表明,在以下方面,小鼠和猕猴中的多巴胺能奖励预测误差神经元的反应类似于高效编码:神经元的中点分布广泛,覆盖了奖励分布;阈值较高的神经元具有更高的增益、更凸的调谐函数和更低的斜率;当奖励分布较窄时,它们的斜率更高。此外,我们推导出能够收敛到高效编码的学习规则。神经元在奖励轴上位置的学习规则与分布强化学习非常相似。因此,奖励预测误差神经元的反应可能被优化以广播高效的奖励信号,从而在高效编码和强化学习之间建立联系,这两个理论是计算神经科学中最成功的理论之一。

相似文献

1
Reward prediction error neurons implement an efficient code for reward.奖励预测误差神经元为奖励实施了一种有效的编码。
Nat Neurosci. 2024 Jul;27(7):1333-1339. doi: 10.1038/s41593-024-01671-x. Epub 2024 Jun 19.
2
A distributional code for value in dopamine-based reinforcement learning.多巴胺基强化学习中的价值分布代码。
Nature. 2020 Jan;577(7792):671-675. doi: 10.1038/s41586-019-1924-6. Epub 2020 Jan 15.
3
A feature-specific prediction error model explains dopaminergic heterogeneity.一种具有特征特异性的预测误差模型解释了多巴胺能异质性。
Nat Neurosci. 2024 Aug;27(8):1574-1586. doi: 10.1038/s41593-024-01689-1. Epub 2024 Jul 3.
4
Rare rewards amplify dopamine responses.稀有奖励会放大多巴胺反应。
Nat Neurosci. 2021 Apr;24(4):465-469. doi: 10.1038/s41593-021-00807-7. Epub 2021 Mar 8.
5
Learning with reinforcement prediction errors in a model of the Drosophila mushroom body.在果蝇蘑菇体模型中进行基于强化预测误差的学习。
Nat Commun. 2021 May 7;12(1):2569. doi: 10.1038/s41467-021-22592-4.
6
Dopamine, Updated: Reward Prediction Error and Beyond.多巴胺:更新版——奖赏预测误差及其他
Curr Opin Neurobiol. 2021 Apr;67:123-130. doi: 10.1016/j.conb.2020.10.012. Epub 2020 Nov 14.
7
How we learn to make decisions: rapid propagation of reinforcement learning prediction errors in humans.我们如何学习做决策:强化学习预测错误在人类中的快速传播。
J Cogn Neurosci. 2014 Mar;26(3):635-44. doi: 10.1162/jocn_a_00509. Epub 2013 Oct 29.
8
A neural network model with dopamine-like reinforcement signal that learns a spatial delayed response task.一种具有类似多巴胺强化信号的神经网络模型,用于学习空间延迟反应任务。
Neuroscience. 1999;91(3):871-90. doi: 10.1016/s0306-4522(98)00697-6.
9
Dopaminergic signals for improved parental behavior.促进亲代行为的多巴胺信号。
Neuron. 2023 Feb 15;111(4):452-453. doi: 10.1016/j.neuron.2023.01.019.
10
Optogenetic mimicry of the transient activation of dopamine neurons by natural reward is sufficient for operant reinforcement.通过自然奖赏对多巴胺神经元的瞬时激活进行光遗传学模拟足以进行操作性强化。
PLoS One. 2012;7(4):e33612. doi: 10.1371/journal.pone.0033612. Epub 2012 Apr 10.

引用本文的文献

1
A multidimensional distributional map of future reward in dopamine neurons.多巴胺神经元中未来奖励的多维分布图。
Nature. 2025 Jun;642(8068):691-699. doi: 10.1038/s41586-025-09089-6. Epub 2025 Jun 4.
2
An opponent striatal circuit for distributional reinforcement learning.用于分布式强化学习的对侧纹状体回路。
Nature. 2025 Mar;639(8055):717-726. doi: 10.1038/s41586-024-08488-5. Epub 2025 Feb 19.
3
Policy Complexity Suppresses Dopamine Responses.政策复杂性抑制多巴胺反应。

本文引用的文献

1
Asymmetric and adaptive reward coding via normalized reinforcement learning.通过归一化强化学习进行非对称和自适应奖励编码。
PLoS Comput Biol. 2022 Jul 21;18(7):e1010350. doi: 10.1371/journal.pcbi.1010350. eCollection 2022 Jul.
2
Efficient coding of cognitive variables underlies dopamine response and choice behavior.认知变量的有效编码是多巴胺反应和选择行为的基础。
Nat Neurosci. 2022 Jun;25(6):738-748. doi: 10.1038/s41593-022-01085-7. Epub 2022 Jun 6.
3
Rare rewards amplify dopamine responses.稀有奖励会放大多巴胺反应。
J Neurosci. 2025 Feb 26;45(9):e1756242024. doi: 10.1523/JNEUROSCI.1756-24.2024.
4
Policy complexity suppresses dopamine responses.政策复杂性会抑制多巴胺反应。
bioRxiv. 2024 Sep 16:2024.09.15.613150. doi: 10.1101/2024.09.15.613150.
5
An opponent striatal circuit for distributional reinforcement learning.一个用于分布式强化学习的对侧纹状体回路。
bioRxiv. 2024 Jan 3:2024.01.02.573966. doi: 10.1101/2024.01.02.573966.
Nat Neurosci. 2021 Apr;24(4):465-469. doi: 10.1038/s41593-021-00807-7. Epub 2021 Mar 8.
4
Dopamine signals as temporal difference errors: recent advances.多巴胺信号作为时间差异误差:最新进展。
Curr Opin Neurobiol. 2021 Apr;67:95-105. doi: 10.1016/j.conb.2020.08.014. Epub 2020 Nov 10.
5
A distributional code for value in dopamine-based reinforcement learning.多巴胺基强化学习中的价值分布代码。
Nature. 2020 Jan;577(7792):671-675. doi: 10.1038/s41586-019-1924-6. Epub 2020 Jan 15.
6
Efficient coding of subjective value.主观价值的有效编码。
Nat Neurosci. 2019 Jan;22(1):134-142. doi: 10.1038/s41593-018-0292-0. Epub 2018 Dec 17.
7
Eligibility Traces and Plasticity on Behavioral Time Scales: Experimental Support of NeoHebbian Three-Factor Learning Rules.行为时间尺度上的资格痕迹和可塑性:新海比尔三因素学习规则的实验支持。
Front Neural Circuits. 2018 Jul 31;12:53. doi: 10.3389/fncir.2018.00053. eCollection 2018.
8
Lawful relation between perceptual bias and discriminability.知觉偏差与可辨别性之间的合法关系。
Proc Natl Acad Sci U S A. 2017 Sep 19;114(38):10244-10249. doi: 10.1073/pnas.1619153114. Epub 2017 Sep 5.
9
Dopamine reward prediction errors reflect hidden-state inference across time.多巴胺奖励预测误差反映了跨时间的隐藏状态推理。
Nat Neurosci. 2017 Apr;20(4):581-589. doi: 10.1038/nn.4520. Epub 2017 Mar 6.
10
Midbrain dopamine neurons control judgment of time.中脑多巴胺神经元控制时间判断。
Science. 2016 Dec 9;354(6317):1273-1277. doi: 10.1126/science.aah5234.