孟加拉语SER：一个用于孟加拉语的语音情感识别数据集。

BanglaSER: A speech emotion recognition dataset for the Bangla language.

作者信息

Das Rakesh Kumar, Islam Nahidul, Ahmed Md Rayhan, Islam Salekul, Shatabda Swakkhar, Islam A K M Muzahidul

机构信息

Department of Computer Science and Engineering, Stamford University Bangladesh, Bangladesh.

Department of Computer Science and Engineering, United International University, Bangladesh.

出版信息

Data Brief. 2022 Mar 22;42:108091. doi: 10.1016/j.dib.2022.108091. eCollection 2022 Jun.

DOI:10.1016/j.dib.2022.108091

PMID:35392615

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8980634/

Abstract

The speech emotion recognition system determines a speaker's emotional state by analyzing his/her speech audio signal. It is an essential at the same time a challenging task in human-computer interaction systems and is one of the most demanding areas of research using artificial intelligence and deep machine learning architectures. Despite being the world's seventh most widely spoken language, Bangla is still classified as one of the low-resource languages for speech emotion recognition tasks because of inadequate availability of data. There is an apparent lack of speech emotion recognition dataset to perform this type of research in Bangla language. This article presents a Bangla language-based emotional speech-audio recognition dataset to address this problem. BanglaSER is a Bangla language-based speech emotion recognition dataset. It consists of speech-audio data of 34 participating speakers from diverse age groups between 19 and 47 years, with a balanced 17 male and 17 female nonprofessional participating actors. This dataset contains 1467 Bangla speech-audio recordings of five rudimentary human emotional states, namely angry, happy, neutral, sad, and surprise. Three trials are conducted for each emotional state. Hence, the total number of recordings involves 3 statements × 3 repetitions × 4 emotional states (angry, happy, sad, and surprise) × 34 participating speakers = 1224 recordings + 3 statements × 3 repetitions × 1 emotional state (neutral) × 27 participating speakers = 243 recordings, resulting in a total number of recordings of 1467. BanglaSER dataset is created by recording speech-audios through smartphones, and laptops, having a balanced number of recordings in each category with evenly distributed participating male and female actors, and would serve as an essential training dataset for the Bangla speech emotion recognition model in terms of generalization. BanglaSER is compatible with various deep learning architectures such as Convolutional neural networks, Long short-term memory, Gated recurrent unit, Transformer, etc. The dataset is available at https://data.mendeley.com/datasets/t9h6p943xy/5 and can be used for research purposes.

摘要

语音情感识别系统通过分析说话者的语音音频信号来确定其情绪状态。这在人机交互系统中既是一项重要任务，同时也是一项具有挑战性的任务，并且是使用人工智能和深度机器学习架构的最具挑战性的研究领域之一。尽管孟加拉语是世界上使用人数第七多的语言，但由于数据可用性不足，在语音情感识别任务中它仍被归类为低资源语言之一。明显缺乏用于进行孟加拉语此类研究的语音情感识别数据集。本文提出了一个基于孟加拉语的情感语音音频识别数据集来解决这一问题。BanglaSER是一个基于孟加拉语的语音情感识别数据集。它由19至47岁不同年龄组的34名参与 speakers 的语音音频数据组成，其中有17名男性和17名女性非专业参与 actors，比例均衡。该数据集包含五种基本人类情绪状态（即愤怒、高兴、中性、悲伤和惊讶）的1467条孟加拉语语音音频记录。每种情绪状态进行三次试验。因此，记录总数包括3条语句×3次重复×4种情绪状态（愤怒、高兴、悲伤和惊讶）×34名参与 speakers = 1224条记录 + 3条语句×3次重复×1种情绪状态（中性）×27名参与 speakers = 243条记录，总计1467条记录。BanglaSER数据集是通过智能手机和笔记本电脑录制语音音频创建的，每个类别中的记录数量均衡，参与的男女 actors 分布均匀，并且在泛化方面将作为孟加拉语语音情感识别模型的重要训练数据集。BanglaSER与各种深度学习架构兼容，如卷积神经网络、长短期记忆、门控循环单元、Transformer等。该数据集可在https://data.mendeley.com/datasets/t9h6p943xy/5获取，可用于研究目的。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1ffb/8980634/2bd5ff85a3b8/gr1.jpg

相似文献

BanglaSER: A speech emotion recognition dataset for the Bangla language.

Data Brief. 2022 Mar 22;42:108091. doi: 10.1016/j.dib.2022.108091. eCollection 2022 Jun.

KBES: A dataset for realistic Bangla speech emotion recognition with intensity level.

Data Brief. 2023 Oct 31;51:109741. doi: 10.1016/j.dib.2023.109741. eCollection 2023 Dec.

A Cantonese Audio-Visual Emotional Speech (CAVES) dataset.

Behav Res Methods. 2024 Aug;56(5):5264-5278. doi: 10.3758/s13428-023-02270-7. Epub 2023 Nov 28.

BAAD: A multipurpose dataset for automatic Bangla offensive speech recognition.

Data Brief. 2023 Mar 24;48:109067. doi: 10.1016/j.dib.2023.109067. eCollection 2023 Jun.

Human-Computer Interaction for Recognizing Speech Emotions Using Multilayer Perceptron Classifier.

J Healthc Eng. 2022 Mar 28;2022:6005446. doi: 10.1155/2022/6005446. eCollection 2022.

AVaTER: Fusing Audio, Visual, and Textual Modalities Using Cross-Modal Attention for Emotion Recognition.

Sensors (Basel). 2024 Sep 10;24(18):5862. doi: 10.3390/s24185862.

SUST Bangla Emotional Speech Corpus (SUBESCO): An audio-only emotional speech corpus for Bangla.

PLoS One. 2021 Apr 30;16(4):e0250173. doi: 10.1371/journal.pone.0250173. eCollection 2021.

Implementing machine learning techniques for continuous emotion prediction from uniformly segmented voice recordings.

Front Psychol. 2024 Mar 20;15:1300996. doi: 10.3389/fpsyg.2024.1300996. eCollection 2024.

Reading comprehension based question answering system in Bangla language with transformer-based learning.

Heliyon. 2022 Oct 12;8(10):e11052. doi: 10.1016/j.heliyon.2022.e11052. eCollection 2022 Oct.

Speech Emotion Recognition Using Attention Model.

Int J Environ Res Public Health. 2023 Mar 14;20(6):5140. doi: 10.3390/ijerph20065140.

引用本文的文献

Bangla Speech Emotion Recognition Using Deep Learning-Based Ensemble Learning and Feature Fusion.

J Imaging. 2025 Aug 14;11(8):273. doi: 10.3390/jimaging11080273.

BanglaTense: A large-scale dataset of Bangla sentences categorized by tense: Past, present, and future.

Data Brief. 2025 Feb 19;59:111400. doi: 10.1016/j.dib.2025.111400. eCollection 2025 Apr.

BanglaBlend: A large-scale nobel dataset of bangla sentences categorized by saint and common form of bangla language.

Data Brief. 2024 Dec 20;58:111240. doi: 10.1016/j.dib.2024.111240. eCollection 2025 Feb.

KBES: A dataset for realistic Bangla speech emotion recognition with intensity level.

Data Brief. 2023 Oct 31;51:109741. doi: 10.1016/j.dib.2023.109741. eCollection 2023 Dec.

本文引用的文献

Cascaded Convolutional Neural Network Architecture for Speech Emotion Recognition in Noisy Conditions.

Sensors (Basel). 2021 Jun 27;21(13):4399. doi: 10.3390/s21134399.

SUST Bangla Emotional Speech Corpus (SUBESCO): An audio-only emotional speech corpus for Bangla.

PLoS One. 2021 Apr 30;16(4):e0250173. doi: 10.1371/journal.pone.0250173. eCollection 2021.

The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English.

PLoS One. 2018 May 16;13(5):e0196391. doi: 10.1371/journal.pone.0196391. eCollection 2018.

Neural evidence that human emotions share core affective properties.

Psychol Sci. 2013 Jun;24(6):947-56. doi: 10.1177/0956797612464242. Epub 2013 Apr 19.

文献AI研究员

20分钟写一篇综述，助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型，支持多种主流文档格式。

立即体验

孟加拉语SER：一个用于孟加拉语的语音情感识别数据集。

BanglaSER: A speech emotion recognition dataset for the Bangla language.

作者信息

机构信息

出版信息

相似文献

引用本文的文献

本文引用的文献

文献AI研究员

用中文搜PubMed

文档翻译

Suppr 超能文献

相似文献

引用本文的文献

本文引用的文献