BTSD：孟加拉语用于文本分类的句子数据集的精心整理转换。

BTSD: A curated transformation of sentence dataset for text classification in Bangla language.

作者信息

Das Rajesh Kumar, Islam Mirajul, Khushbu Sharun Akter

机构信息

Department of Computer Science and Engineering, Daffodil International University, Dhaka 1341, Bangladesh.

出版信息

Data Brief. 2023 Jul 24;50:109445. doi: 10.1016/j.dib.2023.109445. eCollection 2023 Oct.

DOI:10.1016/j.dib.2023.109445

PMID:37577411

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10415831/

Abstract

The Bangla Transformation of Sentence Classification dataset addresses the resource gap in natural language processing (NLP) for the Bangla language by providing a curated resource for Bangla sentence classification. With 3,793 annotated sentences, the dataset focuses on categorizing Bangla sentences into Simple, Complex, and Compound classes. It serves as a benchmark for evaluating NLP models on Bangla sentence classification, promoting linguistic diversity and inclusive language models. Collected from publicly accessible Facebook pages, the dataset ensures balanced representation across the categories. Preprocessing steps, including anonymization and duplicate removal, were applied. Three native Bangla speakers independently assessed the Transformation of Sentence labels, enhancing the dataset's reliability. The dataset empowers researchers, practitioners, and developers to build accurate and robust NLP models tailored to the Bangla language. It offers insights into Bangla syntax and structure, benefiting linguistic research. The dataset can be used to train models, uncover patterns in Bangla language usage, and develop effective NLP applications across domains.

摘要

孟加拉语句子分类数据集通过提供一个精心策划的孟加拉语句子分类资源，解决了自然语言处理（NLP）中孟加拉语的资源缺口问题。该数据集有3793个带注释的句子，专注于将孟加拉语句子分类为简单句、复合句和复杂句类别。它作为评估孟加拉语句子分类的NLP模型的基准，促进语言多样性和包容性语言模型的发展。该数据集从可公开访问的Facebook页面收集，确保了各类别之间的平衡代表性。应用了包括匿名化和重复数据删除在内的预处理步骤。三位以孟加拉语为母语的人士独立评估了句子标签的转换，提高了数据集的可靠性。该数据集使研究人员、从业者和开发者能够构建针对孟加拉语的准确且强大的NLP模型。它为孟加拉语的句法和结构提供了见解，有利于语言学研究。该数据集可用于训练模型、发现孟加拉语使用中的模式，并跨领域开发有效的NLP应用程序。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b10f/10415831/e16707d67196/gr1.jpg

相似文献

BTSD: A curated transformation of sentence dataset for text classification in Bangla language.BTSD：孟加拉语用于文本分类的句子数据集的精心整理转换。

Data Brief. 2023 Jul 24;50:109445. doi: 10.1016/j.dib.2023.109445. eCollection 2023 Oct.

ToxLex_bn: A curated dataset of bangla toxic language derived from Facebook comment.ToxLex_bn：一个从脸书评论中提取的孟加拉语有毒语言的精选数据集。

Data Brief. 2022 Jun 24;43:108416. doi: 10.1016/j.dib.2022.108416. eCollection 2022 Aug.

BaitBuster-Bangla: A comprehensive dataset for clickbait detection in Bangla with multi-feature and multi-modal analysis.《诱饵克星-孟加拉语：一个用于孟加拉语标题党检测的综合数据集，具有多特征和多模态分析》

Data Brief. 2024 Feb 27;53:110239. doi: 10.1016/j.dib.2024.110239. eCollection 2024 Apr.

UDDIPOK: A reading comprehension based question answering dataset in Bangla language.UDDIPOK：一个基于阅读理解的孟加拉语问答数据集。

Data Brief. 2023 Feb 2;47:108933. doi: 10.1016/j.dib.2023.108933. eCollection 2023 Apr.

Balinese story texts dataset for narrative text analyses.用于叙事文本分析的巴厘岛故事文本数据集。

Data Brief. 2024 Aug 8;56:110781. doi: 10.1016/j.dib.2024.110781. eCollection 2024 Oct.

BanglaSER: A speech emotion recognition dataset for the Bangla language.孟加拉语SER：一个用于孟加拉语的语音情感识别数据集。

Data Brief. 2022 Mar 22;42:108091. doi: 10.1016/j.dib.2022.108091. eCollection 2022 Jun.

Sentiment analysis in multilingual context: Comparative analysis of machine learning and hybrid deep learning models.多语言环境下的情感分析：机器学习与混合深度学习模型的比较分析

Heliyon. 2023 Sep 19;9(9):e20281. doi: 10.1016/j.heliyon.2023.e20281. eCollection 2023 Sep.

Bangla_MER: A unique dataset for Bangla mathematical entity recognition.孟加拉语数学实体识别：一个用于孟加拉语数学实体识别的独特数据集。

Data Brief. 2024 Apr 12;54:110407. doi: 10.1016/j.dib.2024.110407. eCollection 2024 Jun.

Shomikoron: Dataset to discover equations from Bangla Mathematical text.Shomikoron：用于从孟加拉数学文本中发现方程的数据集。

Data Brief. 2024 Jul 17;55:110742. doi: 10.1016/j.dib.2024.110742. eCollection 2024 Aug.

In the heart of Swahili: An exploration of data collection methods and corpus curation for natural language processing.在斯瓦希里语的核心地带：自然语言处理中数据收集方法与语料库构建的探索

Data Brief. 2024 Jul 17;55:110751. doi: 10.1016/j.dib.2024.110751. eCollection 2024 Aug.

引用本文的文献

BanglaTense: A large-scale dataset of Bangla sentences categorized by tense: Past, present, and future.孟加拉语时态：一个按过去、现在和将来时态分类的孟加拉语句子大规模数据集。

Data Brief. 2025 Feb 19;59:111400. doi: 10.1016/j.dib.2025.111400. eCollection 2025 Apr.

BanglaBlend: A large-scale nobel dataset of bangla sentences categorized by saint and common form of bangla language.孟加拉语混合语料库：一个大规模的孟加拉语句子诺贝尔奖数据集，按孟加拉语的圣语和通用形式分类。

Data Brief. 2024 Dec 20;58:111240. doi: 10.1016/j.dib.2024.111240. eCollection 2025 Feb.

A Bengali news and public opinion dataset from YouTube.一个来自YouTube的孟加拉语新闻与公众舆论数据集。

Data Brief. 2023 Dec 10;52:109938. doi: 10.1016/j.dib.2023.109938. eCollection 2024 Feb.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验

BTSD：孟加拉语用于文本分类的句子数据集的精心整理转换。

BTSD: A curated transformation of sentence dataset for text classification in Bangla language.

作者信息

机构信息

出版信息

相似文献

引用本文的文献

文献检索

文件翻译

深度研究

Suppr 超能文献

相似文献

引用本文的文献