• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

孟加拉语新闻文章数据集。

Bangla news article dataset.

作者信息

Saad Asif Mohammed, Mahi Umme Niraj, Salim Md Shahidul, Hossain Sk Imran

机构信息

Khulna University of Engineering & Technology, Khulna 9203, Bangladesh.

出版信息

Data Brief. 2024 Aug 24;57:110874. doi: 10.1016/j.dib.2024.110874. eCollection 2024 Dec.

DOI:10.1016/j.dib.2024.110874
PMID:39290422
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11404080/
Abstract

In this research, we present an updated standard Bangla dataset based on gathered Bangla news articles. In total, more than 1.9 million articles from nine Bangla news websites were gathered; the selection process was led by a number of categories, including sports, economy, politics, local news, tech, tourism, entertainment, education, health, the arts, and many more. The dataset per newspaper contains varying attributes, such as title, content, time, tags, meta, category, etc. This dataset will enable data scientists to investigate and assess theories related to Bangla natural language processing. Furthermore, there is a greater chance that the dataset will be utilized for domain-specific large language models in the context of Bangladesh, and it may be used to develop deep learning and machine learning models that categorize articles according to subjects.

摘要

在本研究中,我们基于收集到的孟加拉语新闻文章展示了一个更新的标准孟加拉语数据集。总共从九个孟加拉语新闻网站收集了超过190万篇文章;选择过程由多个类别主导,包括体育、经济、政治、本地新闻、科技、旅游、娱乐、教育、健康、艺术等等。每个报纸的数据集包含不同的属性,如标题、内容、时间、标签、元数据、类别等。该数据集将使数据科学家能够研究和评估与孟加拉语自然语言处理相关的理论。此外,该数据集在孟加拉国的背景下更有可能被用于特定领域的大语言模型,并且它可用于开发根据主题对文章进行分类的深度学习和机器学习模型。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/79742bb3bae6/gr4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/094a9f3ca499/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/66e0afae421a/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/bc69aca76412/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/79742bb3bae6/gr4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/094a9f3ca499/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/66e0afae421a/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/bc69aca76412/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d3a6/11404080/79742bb3bae6/gr4.jpg

相似文献

1
Bangla news article dataset.孟加拉语新闻文章数据集。
Data Brief. 2024 Aug 24;57:110874. doi: 10.1016/j.dib.2024.110874. eCollection 2024 Dec.
2
ANAD: Arabic news article dataset.ANAD:阿拉伯语新闻文章数据集。
Data Brief. 2023 Jul 29;50:109460. doi: 10.1016/j.dib.2023.109460. eCollection 2023 Oct.
3
UDDIPOK: A reading comprehension based question answering dataset in Bangla language.UDDIPOK:一个基于阅读理解的孟加拉语问答数据集。
Data Brief. 2023 Feb 2;47:108933. doi: 10.1016/j.dib.2023.108933. eCollection 2023 Apr.
4
BTSD: A curated transformation of sentence dataset for text classification in Bangla language.BTSD:孟加拉语用于文本分类的句子数据集的精心整理转换。
Data Brief. 2023 Jul 24;50:109445. doi: 10.1016/j.dib.2023.109445. eCollection 2023 Oct.
5
BanglaSER: A speech emotion recognition dataset for the Bangla language.孟加拉语SER:一个用于孟加拉语的语音情感识别数据集。
Data Brief. 2022 Mar 22;42:108091. doi: 10.1016/j.dib.2022.108091. eCollection 2022 Jun.
6
BDSL 49: A comprehensive dataset of Bangla sign language.孟加拉语手语49:孟加拉语手语综合数据集。
Data Brief. 2023 Jun 18;49:109329. doi: 10.1016/j.dib.2023.109329. eCollection 2023 Aug.
7
BaitBuster-Bangla: A comprehensive dataset for clickbait detection in Bangla with multi-feature and multi-modal analysis.《诱饵克星-孟加拉语:一个用于孟加拉语标题党检测的综合数据集,具有多特征和多模态分析》
Data Brief. 2024 Feb 27;53:110239. doi: 10.1016/j.dib.2024.110239. eCollection 2024 Apr.
8
Bangla_MER: A unique dataset for Bangla mathematical entity recognition.孟加拉语数学实体识别:一个用于孟加拉语数学实体识别的独特数据集。
Data Brief. 2024 Apr 12;54:110407. doi: 10.1016/j.dib.2024.110407. eCollection 2024 Jun.
9
Bangla Sign Language (BdSL) Alphabets and Numerals Classification Using a Deep Learning Model.使用深度学习模型对孟加拉手语(BdSL)字母和数字进行分类。
Sensors (Basel). 2022 Jan 12;22(2):574. doi: 10.3390/s22020574.
10
KBES: A dataset for realistic Bangla speech emotion recognition with intensity level.KBES:一个用于具有强度水平的现实孟加拉语语音情感识别的数据集。
Data Brief. 2023 Oct 31;51:109741. doi: 10.1016/j.dib.2023.109741. eCollection 2023 Dec.

本文引用的文献

1
ANAD: Arabic news article dataset.ANAD:阿拉伯语新闻文章数据集。
Data Brief. 2023 Jul 29;50:109460. doi: 10.1016/j.dib.2023.109460. eCollection 2023 Oct.