• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用深度概率层对变压器进行正则化。

Regularizing transformers with deep probabilistic layers.

作者信息

Aguilera Aurora Cobo, Olmos Pablo M, Artés-Rodríguez Antonio, Pérez-Cruz Fernando

机构信息

Department of Signal Theory and Communications, Universidad Carlos III de Madrid, Avda. de la Universidad 30, 28911, Leganés, Madrid, Spain.

Swiss Data Science Institute (ETHZ/EPFL), Universitatstrasse 25, 8006, Zurich, Switzerland.

出版信息

Neural Netw. 2023 Apr;161:565-574. doi: 10.1016/j.neunet.2023.01.032. Epub 2023 Feb 9.

DOI:10.1016/j.neunet.2023.01.032
PMID:36812832
Abstract

Language models (LM) have grown non-stop in the last decade, from sequence-to-sequence architectures to attention-based Transformers. However, regularization is not deeply studied in those structures. In this work, we use a Gaussian Mixture Variational Autoencoder (GMVAE) as a regularizer layer. We study its advantages regarding the depth where it is placed and prove its effectiveness in several scenarios. Experimental result demonstrates that the inclusion of deep generative models within Transformer-based architectures such as BERT, RoBERTa, or XLM-R can bring more versatile models, able to generalize better and achieve improved imputation score in tasks such as SST-2 and TREC or even impute missing/noisy words with richer text.

摘要

在过去十年中,语言模型(LM)一直在不断发展,从序列到序列架构发展到基于注意力机制的Transformer。然而,在这些结构中,正则化并没有得到深入研究。在这项工作中,我们使用高斯混合变分自编码器(GMVAE)作为正则化层。我们研究了它在放置深度方面的优势,并证明了它在几种情况下的有效性。实验结果表明,在基于Transformer的架构(如BERT、RoBERTa或XLM-R)中纳入深度生成模型可以带来更通用的模型,能够更好地泛化,并在诸如SST-2和TREC等任务中获得更高的插补分数,甚至能够用更丰富的文本插补缺失/有噪声的单词。

相似文献

1
Regularizing transformers with deep probabilistic layers.使用深度概率层对变压器进行正则化。
Neural Netw. 2023 Apr;161:565-574. doi: 10.1016/j.neunet.2023.01.032. Epub 2023 Feb 9.
2
Transformers-sklearn: a toolkit for medical language understanding with transformer-based models.Transformer-sklearn:一个基于 Transformer 的模型的医学语言理解工具包。
BMC Med Inform Decis Mak. 2021 Jul 30;21(Suppl 2):90. doi: 10.1186/s12911-021-01459-0.
3
Clinical concept extraction using transformers.使用转换器进行临床概念提取。
J Am Med Inform Assoc. 2020 Dec 9;27(12):1935-1942. doi: 10.1093/jamia/ocaa189.
4
Survey of transformers and towards ensemble learning using transformers for natural language processing.变压器综述以及迈向使用变压器进行自然语言处理的集成学习
J Big Data. 2024;11(1):25. doi: 10.1186/s40537-023-00842-0. Epub 2024 Feb 4.
5
Natural language processing with transformers: a review.基于Transformer的自然语言处理综述。
PeerJ Comput Sci. 2024 Aug 7;10:e2222. doi: 10.7717/peerj-cs.2222. eCollection 2024.
6
Stacked DeBERT: All attention in incomplete data for text classification.堆叠型 DeBERTa:文本分类中针对不完整数据的全注意力
Neural Netw. 2021 Apr;136:87-96. doi: 10.1016/j.neunet.2020.12.018. Epub 2020 Dec 25.
7
RadBERT: Adapting Transformer-based Language Models to Radiology.RadBERT:使基于Transformer的语言模型适用于放射学领域。
Radiol Artif Intell. 2022 Jun 15;4(4):e210258. doi: 10.1148/ryai.210258. eCollection 2022 Jul.
8
Multi-Label Classification in Patient-Doctor Dialogues With the RoBERTa-WWM-ext + CNN (Robustly Optimized Bidirectional Encoder Representations From Transformers Pretraining Approach With Whole Word Masking Extended Combining a Convolutional Neural Network) Model: Named Entity Study.基于RoBERTa-WWM-ext + CNN(带有全词掩码扩展的基于变换器预训练方法的稳健优化双向编码器表示与卷积神经网络相结合)模型的医患对话多标签分类:命名实体研究
JMIR Med Inform. 2022 Apr 21;10(4):e35606. doi: 10.2196/35606.
9
Sequence-to-sequence pretraining for a less-resourced Slovenian language.针对资源较少的斯洛文尼亚语的序列到序列预训练。
Front Artif Intell. 2023 Mar 28;6:932519. doi: 10.3389/frai.2023.932519. eCollection 2023.
10
When BERT meets Bilbo: a learning curve analysis of pretrained language model on disease classification.当 BERT 遇见比尔博:预训练语言模型在疾病分类上的学习曲线分析。
BMC Med Inform Decis Mak. 2022 Apr 5;21(Suppl 9):377. doi: 10.1186/s12911-022-01829-2.

引用本文的文献

1
Pretreatment Multi-sequence Contrast-Enhanced MRI to Predict Response to Immunotherapy in Unresectable Hepatocellular Carcinoma Using Transformer: A Multicenter Study.使用Transformer的预处理多序列对比增强MRI预测不可切除肝细胞癌免疫治疗反应的多中心研究
J Cancer. 2025 Jun 12;16(8):2663-2672. doi: 10.7150/jca.111026. eCollection 2025.
2
An analytical approach for unsupervised learning rate estimation using rectified linear units.一种使用整流线性单元进行无监督学习率估计的分析方法。
Front Neurosci. 2024 Apr 8;18:1362510. doi: 10.3389/fnins.2024.1362510. eCollection 2024.