• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

RuSentiTweet:一个俄语通用领域推文的情感分析数据集。

RuSentiTweet: a sentiment analysis dataset of general domain tweets in Russian.

作者信息

Smetanin Sergey

机构信息

Department of Business Informatics, Graduate School of Business, National Research University Higher School of Economics, Russia.

出版信息

PeerJ Comput Sci. 2022 Jul 19;8:e1039. doi: 10.7717/peerj-cs.1039. eCollection 2022.

DOI:10.7717/peerj-cs.1039
PMID:36092008
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9454938/
Abstract

The Russian language is still not as well-resourced as English, especially in the field of sentiment analysis of Twitter content. Though several sentiment analysis datasets of tweets in Russia exist, they all are either automatically annotated or manually annotated by one annotator. Thus, there is no inter-annotator agreement, or annotation may be focused on a specific domain. In this article, we present RuSentiTweet, a new sentiment analysis dataset of general domain tweets in Russian. RuSentiTweet is currently the largest in its class for Russian, with 13,392 tweets manually annotated with moderate inter-rater agreement into five classes: Positive, Neutral, Negative, Speech Act, and Skip. As a source of data, we used Twitter Stream Grab, a historical collection of tweets obtained from the general Twitter API stream, which provides a 1% sample of the public tweets. Additionally, we released a RuBERT-based sentiment classification model that achieved = 0.6594 on the test subset.

摘要

俄语的资源仍然不如英语丰富,尤其是在推特内容情感分析领域。尽管存在一些俄罗斯推文的情感分析数据集,但它们都是由一个注释者自动注释或手动注释的。因此,不存在注释者间的一致性,或者注释可能集中在特定领域。在本文中,我们展示了RuSentiTweet,这是一个新的俄语通用领域推文情感分析数据集。RuSentiTweet目前是俄语同类数据集中最大的,有13392条推文被手动注释,注释者间一致性适中,分为五类:积极、中性、消极、言语行为和跳过。作为数据来源,我们使用了Twitter Stream Grab,这是一个从通用推特应用程序编程接口流中获取的推文历史集合,它提供了1%的公开推文样本。此外,我们发布了一个基于RuBERT的情感分类模型,该模型在测试子集中的F1值为0.6594。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/592e6e0347a1/peerj-cs-08-1039-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/268e79f0af64/peerj-cs-08-1039-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/b5e56c9482ec/peerj-cs-08-1039-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/ab9d369dcb8f/peerj-cs-08-1039-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/592e6e0347a1/peerj-cs-08-1039-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/268e79f0af64/peerj-cs-08-1039-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/b5e56c9482ec/peerj-cs-08-1039-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/ab9d369dcb8f/peerj-cs-08-1039-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9c03/9454938/592e6e0347a1/peerj-cs-08-1039-g004.jpg

相似文献

1
RuSentiTweet: a sentiment analysis dataset of general domain tweets in Russian.RuSentiTweet:一个俄语通用领域推文的情感分析数据集。
PeerJ Comput Sci. 2022 Jul 19;8:e1039. doi: 10.7717/peerj-cs.1039. eCollection 2022.
2
Applying Multiple Data Collection Tools to Quantify Human Papillomavirus Vaccine Communication on Twitter.应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播情况
J Med Internet Res. 2016 Dec 5;18(12):e318. doi: 10.2196/jmir.6670.
3
Twitter dataset on public sentiments towards biodiversity policy in Indonesia.关于印度尼西亚生物多样性政策公众情绪的推特数据集。
Data Brief. 2023 Dec 1;52:109890. doi: 10.1016/j.dib.2023.109890. eCollection 2024 Feb.
4
Classification of Twitter Vaping Discourse Using BERTweet: Comparative Deep Learning Study.使用BERTweet对推特上的电子烟话语进行分类:比较深度学习研究。
JMIR Med Inform. 2022 Jul 21;10(7):e33678. doi: 10.2196/33678.
5
Tracking discussions of complementary, alternative, and integrative medicine in the context of the COVID-19 pandemic: a month-by-month sentiment analysis of Twitter data.在 COVID-19 大流行背景下追踪补充、替代和整合医学的讨论:对 Twitter 数据进行逐月情感分析。
BMC Complement Med Ther. 2022 Apr 13;22(1):105. doi: 10.1186/s12906-022-03586-1.
6
"When 'Bad' is 'Good'": Identifying Personal Communication and Sentiment in Drug-Related Tweets.当“负面”即“正面”:识别与毒品相关推文中的个人交流和情感倾向
JMIR Public Health Surveill. 2016 Oct 24;2(2):e162. doi: 10.2196/publichealth.6327.
7
The voice of Twitter: observable subjective well-being inferred from tweets in Russian.推特之声:从俄语推文推断出的可观察主观幸福感。
PeerJ Comput Sci. 2022 Dec 20;8:e1181. doi: 10.7717/peerj-cs.1181. eCollection 2022.
8
A machine learning-based approach for sentiment analysis on distance learning from Arabic Tweets.一种基于机器学习的方法用于对阿拉伯语推文的远程学习进行情感分析。
PeerJ Comput Sci. 2022 Jul 26;8:e1047. doi: 10.7717/peerj-cs.1047. eCollection 2022.
9
Using twitter to examine smoking behavior and perceptions of emerging tobacco products.利用推特研究吸烟行为及对新兴烟草产品的认知。
J Med Internet Res. 2013 Aug 29;15(8):e174. doi: 10.2196/jmir.2534.
10
Tracking Public Attitudes Toward COVID-19 Vaccination on Tweets in Canada: Using Aspect-Based Sentiment Analysis.追踪加拿大推特上公众对 COVID-19 疫苗接种的态度:使用基于方面的情感分析。
J Med Internet Res. 2022 Mar 29;24(3):e35016. doi: 10.2196/35016.

引用本文的文献

1
ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment.ReadMe++:用于多领域可读性评估的多语言模型基准测试
Proc Conf Empir Methods Nat Lang Process. 2024 Nov;2024:12230-12266. doi: 10.18653/v1/2024.emnlp-main.682.
2
Special issue on analysis and mining of social media data.社交媒体数据分析与挖掘特刊。
PeerJ Comput Sci. 2024 Feb 29;10:e1909. doi: 10.7717/peerj-cs.1909. eCollection 2024.
3
The voice of Twitter: observable subjective well-being inferred from tweets in Russian.推特之声:从俄语推文推断出的可观察主观幸福感。

本文引用的文献

1
A BERT based dual-channel explainable text emotion recognition system.基于 BERT 的双通道可解释文本情感识别系统。
Neural Netw. 2022 Jun;150:392-407. doi: 10.1016/j.neunet.2022.03.017. Epub 2022 Mar 18.
2
New explainability method for BERT-based model in fake news detection.基于 BERT 的模型在假新闻检测中的新可解释性方法。
Sci Rep. 2021 Dec 8;11(1):23705. doi: 10.1038/s41598-021-03100-6.
3
Reliability in evaluator-based tests: using simulation-constructed models to determine contextually relevant agreement thresholds.
PeerJ Comput Sci. 2022 Dec 20;8:e1181. doi: 10.7717/peerj-cs.1181. eCollection 2022.
基于评估者的测试的可靠性:使用模拟构建的模型确定上下文相关的一致性阈值。
BMC Med Res Methodol. 2018 Nov 19;18(1):141. doi: 10.1186/s12874-018-0606-7.
4
Weather impacts expressed sentiment.天气影响表达的情绪。
PLoS One. 2018 Apr 25;13(4):e0195750. doi: 10.1371/journal.pone.0195750. eCollection 2018.
5
Circadian mood variations in Twitter content.推特内容中的昼夜情绪变化。
Brain Neurosci Adv. 2017 Jan 1;1:2398212817744501. doi: 10.1177/2398212817744501. Epub 2017 Dec 1.
6
Multilingual Twitter Sentiment Classification: The Role of Human Annotators.多语言推特情感分类:人工标注者的作用。
PLoS One. 2016 May 5;11(5):e0155036. doi: 10.1371/journal.pone.0155036. eCollection 2016.
7
We feel: mapping emotion on Twitter.我们的感受:在 Twitter 上绘制情绪图谱。
IEEE J Biomed Health Inform. 2015 Jul;19(4):1246-52. doi: 10.1109/JBHI.2015.2403839. Epub 2015 Feb 13.
8
The measurement of observer agreement for categorical data.分类数据观察者一致性的测量。
Biometrics. 1977 Mar;33(1):159-74.