• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

《诱饵克星-孟加拉语:一个用于孟加拉语标题党检测的综合数据集,具有多特征和多模态分析》

BaitBuster-Bangla: A comprehensive dataset for clickbait detection in Bangla with multi-feature and multi-modal analysis.

作者信息

Imran Abdullah Al, Shovon Md Sakib Hossain, Mridha M F

机构信息

Department of Computer Science, American International University-Bangladesh, Dhaka, Bangladesh.

出版信息

Data Brief. 2024 Feb 27;53:110239. doi: 10.1016/j.dib.2024.110239. eCollection 2024 Apr.

DOI:10.1016/j.dib.2024.110239
PMID:38445203
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10912596/
Abstract

This study presents a large multi-modal Bangla YouTube clickbait dataset consisting of 253,070 data points collected through an automated process using the YouTube API and Python web automation frameworks. The dataset contains 18 diverse features categorized into metadata, primary content, engagement statistics, and labels for individual videos from 58 Bangla YouTube channels. A rigorous preprocessing step has been applied to denoise, deduplicate, and remove bias from the features, ensuring unbiased and reliable analysis. As the largest and most robust clickbait corpus in Bangla to date, this dataset provides significant value for natural language processing and data science researchers seeking to advance modeling of clickbait phenomena in low-resource languages. Its multi-modal nature allows for comprehensive analyses of clickbait across content, user interactions, and linguistic dimensions to develop more sophisticated detection methods with cross-linguistic applications.

摘要

本研究展示了一个大型多模态孟加拉语YouTube标题党数据集,该数据集由253,070个数据点组成,这些数据点是通过使用YouTube API和Python网络自动化框架的自动化过程收集的。该数据集包含18种不同的特征,分为元数据、主要内容、参与统计信息,以及来自58个孟加拉语YouTube频道的单个视频的标签。已经应用了严格的预处理步骤来对特征进行去噪、去重和消除偏差,以确保进行无偏差且可靠的分析。作为迄今为止最大且最强大的孟加拉语标题党语料库,该数据集为寻求推进低资源语言中标题党现象建模的自然语言处理和数据科学研究人员提供了重要价值。其多模态性质允许对标题党在内容、用户交互和语言维度上进行全面分析,以开发具有跨语言应用的更复杂的检测方法。

相似文献

1
BaitBuster-Bangla: A comprehensive dataset for clickbait detection in Bangla with multi-feature and multi-modal analysis.《诱饵克星-孟加拉语:一个用于孟加拉语标题党检测的综合数据集,具有多特征和多模态分析》
Data Brief. 2024 Feb 27;53:110239. doi: 10.1016/j.dib.2024.110239. eCollection 2024 Apr.
2
BTSD: A curated transformation of sentence dataset for text classification in Bangla language.BTSD:孟加拉语用于文本分类的句子数据集的精心整理转换。
Data Brief. 2023 Jul 24;50:109445. doi: 10.1016/j.dib.2023.109445. eCollection 2023 Oct.
3
A unified approach for detection of Clickbait videos on YouTube using cognitive evidences.一种利用认知证据在YouTube上检测标题党视频的统一方法。
Appl Intell (Dordr). 2021;51(7):4214-4235. doi: 10.1007/s10489-020-02057-9. Epub 2021 Jan 2.
4
CLICK-ID: A novel dataset for Indonesian clickbait headlines.CLICK-ID:一个用于印尼语标题党新闻标题的新数据集。
Data Brief. 2020 Aug 27;32:106231. doi: 10.1016/j.dib.2020.106231. eCollection 2020 Oct.
5
BDSL 49: A comprehensive dataset of Bangla sign language.孟加拉语手语49:孟加拉语手语综合数据集。
Data Brief. 2023 Jun 18;49:109329. doi: 10.1016/j.dib.2023.109329. eCollection 2023 Aug.
6
BanglaSER: A speech emotion recognition dataset for the Bangla language.孟加拉语SER:一个用于孟加拉语的语音情感识别数据集。
Data Brief. 2022 Mar 22;42:108091. doi: 10.1016/j.dib.2022.108091. eCollection 2022 Jun.
7
UDDIPOK: A reading comprehension based question answering dataset in Bangla language.UDDIPOK:一个基于阅读理解的孟加拉语问答数据集。
Data Brief. 2023 Feb 2;47:108933. doi: 10.1016/j.dib.2023.108933. eCollection 2023 Apr.
8
KBES: A dataset for realistic Bangla speech emotion recognition with intensity level.KBES:一个用于具有强度水平的现实孟加拉语语音情感识别的数据集。
Data Brief. 2023 Oct 31;51:109741. doi: 10.1016/j.dib.2023.109741. eCollection 2023 Dec.
9
Click me…! The influence of clickbait on user engagement in social media and the role of digital nudging.点击我……!点击诱饵对社交媒体用户参与度的影响,以及数字推动的作用。
PLoS One. 2022 Jun 29;17(6):e0266743. doi: 10.1371/journal.pone.0266743. eCollection 2022.
10
AVaTER: Fusing Audio, Visual, and Textual Modalities Using Cross-Modal Attention for Emotion Recognition.AVaTER:使用跨模态注意力融合音频、视觉和文本模态进行情感识别。
Sensors (Basel). 2024 Sep 10;24(18):5862. doi: 10.3390/s24185862.

引用本文的文献

1
Live and mediated user engagements: A comparative dataset from two Bengali audio-story based youtube channels.直播和介导的用户参与:来自两个基于孟加拉语音频故事的YouTube频道的比较数据集。
Data Brief. 2024 Dec 10;58:111219. doi: 10.1016/j.dib.2024.111219. eCollection 2025 Feb.