• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

阿拉伯语释义平行合成数据集。

Arabic paraphrased parallel synthetic dataset.

作者信息

Al-Shameri Noora, Al-Khalifa Hend

机构信息

Information Technology Department, King Saud University, Riyadh, Saudi Arabia.

出版信息

Data Brief. 2024 Oct 10;57:111004. doi: 10.1016/j.dib.2024.111004. eCollection 2024 Dec.

DOI:10.1016/j.dib.2024.111004
PMID:39498154
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11533034/
Abstract

The Arabic paraphrased parallel dataset plays a crucial role in advancing NLP and other language-related applications by leveraging data from diverse sources and expanding it through data augmentation techniques. This dataset enhances machine translation, text summarization, and sentiment analysis, providing a better understanding and manipulation of the Arabic language. It also serves as a valuable tool for improving educational materials, optimizing search engines, and supporting content creation across various fields. Its role in semantic analysis aids in understanding context and meaning, making it indispensable for domain-specific applications. The main aim of building this dataset is to generate paraphrased sentences through synthetic augmentation using the back translation technique, addressing the gap in research and datasets focused on paraphrase generation in Arabic. The process involves collecting sentences from various sources, followed by preprocessing and evaluation to ensure reliability and usefulness. This systematic approach aims to produce a robust Arabic paraphrased dataset that can be utilized in various NLP tasks, fostering further innovation in Arabic language processing.

摘要

阿拉伯语释义平行数据集通过利用来自不同来源的数据并通过数据增强技术进行扩展,在推进自然语言处理(NLP)和其他与语言相关的应用方面发挥着关键作用。该数据集增强了机器翻译、文本摘要和情感分析,有助于更好地理解和处理阿拉伯语。它也是改进教育材料、优化搜索引擎以及支持各个领域内容创作的宝贵工具。其在语义分析中的作用有助于理解上下文和含义,使其对于特定领域的应用不可或缺。构建这个数据集的主要目的是使用反向翻译技术通过合成增强来生成释义句子,解决专注于阿拉伯语释义生成的研究和数据集方面的差距。这个过程包括从各种来源收集句子,然后进行预处理和评估以确保可靠性和实用性。这种系统方法旨在生成一个强大的阿拉伯语释义数据集,可用于各种NLP任务,促进阿拉伯语处理的进一步创新。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/4872cb44178d/gr4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/870c7b59e495/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/4951faef5eaa/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/473807c90657/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/4872cb44178d/gr4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/870c7b59e495/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/4951faef5eaa/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/473807c90657/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2eec/11533034/4872cb44178d/gr4.jpg

相似文献

1
Arabic paraphrased parallel synthetic dataset.阿拉伯语释义平行合成数据集。
Data Brief. 2024 Oct 10;57:111004. doi: 10.1016/j.dib.2024.111004. eCollection 2024 Dec.
2
Syntactic- and morphology-based text augmentation framework for Arabic sentiment analysis.用于阿拉伯语情感分析的基于句法和形态学的文本增强框架。
PeerJ Comput Sci. 2021 Apr 5;7:e469. doi: 10.7717/peerj-cs.469. eCollection 2021.
3
Arabic punctuation dataset.阿拉伯语标点符号数据集。
Data Brief. 2024 Feb 1;53:110118. doi: 10.1016/j.dib.2024.110118. eCollection 2024 Apr.
4
A comprehensive dataset for Arabic word sense disambiguation.
Data Brief. 2024 Jun 4;55:110591. doi: 10.1016/j.dib.2024.110591. eCollection 2024 Aug.
5
In the heart of Swahili: An exploration of data collection methods and corpus curation for natural language processing.在斯瓦希里语的核心地带:自然语言处理中数据收集方法与语料库构建的探索
Data Brief. 2024 Jul 17;55:110751. doi: 10.1016/j.dib.2024.110751. eCollection 2024 Aug.
6
Guide for the application of the data augmentation approach on sets of texts in Spanish for sentiment and emotion analysis.西班牙语情感分析中数据集的扩充方法应用指南。
PLoS One. 2024 Sep 26;19(9):e0310707. doi: 10.1371/journal.pone.0310707. eCollection 2024.
7
A7׳ta: Data on a monolingual Arabic parallel corpus for grammar checking.A7׳ta:关于用于语法检查的单语阿拉伯语平行语料库的数据。 (注:这里的“A7׳ta”可能是特定的名称或术语,由于不清楚其确切含义,所以保留原样翻译)
Data Brief. 2018 Dec 4;22:237-240. doi: 10.1016/j.dib.2018.11.146. eCollection 2019 Feb.
8
Improving data augmentation for low resource speech-to-text translation with diverse paraphrasing.利用多样化的释义改进低资源语音到文本翻译的数据增强。
Neural Netw. 2022 Apr;148:194-205. doi: 10.1016/j.neunet.2022.01.016. Epub 2022 Feb 1.
9
Character gated recurrent neural networks for Arabic sentiment analysis.基于字符门控循环神经网络的阿拉伯语情感分析。
Sci Rep. 2022 Jun 13;12(1):9779. doi: 10.1038/s41598-022-13153-w.
10
AHD: Arabic healthcare dataset.AHD:阿拉伯语医疗保健数据集。
Data Brief. 2024 Aug 22;56:110855. doi: 10.1016/j.dib.2024.110855. eCollection 2024 Oct.