• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于 BERT 模型的阿拉伯语句法变音符号恢复。

Arabic Syntactic Diacritics Restoration Using BERT Models.

机构信息

College of Computer Engineering and Sciences, Prince Sattam Bin Abdulaziz University, Al Kharj, Saudi Arabia.

Faculty of Computers and Artificial Intelligence, Helwan University, Cairo, Egypt.

出版信息

Comput Intell Neurosci. 2022 Oct 30;2022:3214255. doi: 10.1155/2022/3214255. eCollection 2022.

DOI:10.1155/2022/3214255
PMID:36348654
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9637475/
Abstract

The Arabic syntactic diacritics restoration problem is often solved using long short-term memory (LSTM) networks. Handcrafted features are used to augment these LSTM networks or taggers to improve performance. A transformer-based machine learning technique known as bidirectional encoder representations from transformers (BERT) has become the state-of-the-art method for natural language understanding in recent years. In this paper, we present a novel tagger based on BERT models to restore Arabic syntactic diacritics. We formulated the syntactic diacritics restoration as a token sequence classification task similar to named-entity recognition (NER). Using the Arabic TreeBank (ATB) corpus, the developed BERT tagger achieves a 1.36% absolute case-ending error rate (CEER) over other systems.

摘要

阿拉伯语句法变音符号还原问题通常使用长短时记忆 (LSTM) 网络解决。手工制作的特征用于增强这些 LSTM 网络或标记器以提高性能。近年来,一种基于转换器的机器学习技术,称为来自转换器的双向编码器表示 (BERT),已成为自然语言理解的最新方法。在本文中,我们提出了一种基于 BERT 模型的新标记器,用于还原阿拉伯语句法变音符号。我们将句法变音符号还原制定为类似于命名实体识别 (NER) 的令牌序列分类任务。使用阿拉伯语树库 (ATB) 语料库,开发的 BERT 标记器在其他系统上的绝对词尾错误率 (CEER) 达到 1.36%。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3518/9637475/73c3c4252d68/CIN2022-3214255.002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3518/9637475/ed7ff5655870/CIN2022-3214255.001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3518/9637475/73c3c4252d68/CIN2022-3214255.002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3518/9637475/ed7ff5655870/CIN2022-3214255.001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3518/9637475/73c3c4252d68/CIN2022-3214255.002.jpg

相似文献

1
Arabic Syntactic Diacritics Restoration Using BERT Models.基于 BERT 模型的阿拉伯语句法变音符号恢复。
Comput Intell Neurosci. 2022 Oct 30;2022:3214255. doi: 10.1155/2022/3214255. eCollection 2022.
2
Evaluation of clinical named entity recognition methods for Serbian electronic health records.评估塞尔维亚电子健康记录中的临床命名实体识别方法。
Int J Med Inform. 2022 Aug;164:104805. doi: 10.1016/j.ijmedinf.2022.104805. Epub 2022 May 25.
3
Korean clinical entity recognition from diagnosis text using BERT.基于 BERT 的韩语文本临床实体识别。
BMC Med Inform Decis Mak. 2020 Sep 30;20(Suppl 7):242. doi: 10.1186/s12911-020-01241-8.
4
Extracting comprehensive clinical information for breast cancer using deep learning methods.利用深度学习方法提取乳腺癌全面临床信息。
Int J Med Inform. 2019 Dec;132:103985. doi: 10.1016/j.ijmedinf.2019.103985. Epub 2019 Oct 2.
5
A Fine-Tuned Bidirectional Encoder Representations From Transformers Model for Food Named-Entity Recognition: Algorithm Development and Validation.基于 Transformer 的双向编码器表示模型的精细调整在食品命名实体识别中的应用:算法开发与验证。
J Med Internet Res. 2021 Aug 9;23(8):e28229. doi: 10.2196/28229.
6
Oversampling effect in pretraining for bidirectional encoder representations from transformers (BERT) to localize medical BERT and enhance biomedical BERT.在基于转换器的双向编码器表示预训练(BERT)中进行过采样,以定位医学 BERT 并增强生物医学 BERT。
Artif Intell Med. 2024 Jul;153:102889. doi: 10.1016/j.artmed.2024.102889. Epub 2024 May 5.
7
Evaluating Medical Entity Recognition in Health Care: Entity Model Quantitative Study.评估医疗保健中的实体识别:实体模型定量研究。
JMIR Med Inform. 2024 Oct 17;12:e59782. doi: 10.2196/59782.
8
Multifaceted Natural Language Processing Task-Based Evaluation of Bidirectional Encoder Representations From Transformers Models for Bilingual (Korean and English) Clinical Notes: Algorithm Development and Validation.基于转换器模型的双向编码器表示的多方面自然语言处理任务评估在双语(韩语和英语)临床笔记中的应用:算法开发和验证。
JMIR Med Inform. 2024 Oct 30;12:e52897. doi: 10.2196/52897.
9
Does BERT need domain adaptation for clinical negation detection?BERT 是否需要进行领域适应来进行临床否定检测?
J Am Med Inform Assoc. 2020 Apr 1;27(4):584-591. doi: 10.1093/jamia/ocaa001.
10
Comparing deep learning architectures for sentiment analysis on drug reviews.比较药物评论情感分析的深度学习架构。
J Biomed Inform. 2020 Oct;110:103539. doi: 10.1016/j.jbi.2020.103539. Epub 2020 Aug 17.

本文引用的文献

1
Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems.Tashkeela:阿拉伯语标音文本的新型语料库,自动标注系统的数据。
Data Brief. 2017 Feb 3;11:147-151. doi: 10.1016/j.dib.2017.01.011. eCollection 2017 Apr.