社交媒体分析中的数据和模型偏差：以 COVID-19 推文为例。

Data and Model Biases in Social Media Analyses: A Case Study of COVID-19 Tweets.

机构信息

University of Florida, Gainesville, Florida, USA.

University of Texas Health Science Center at Houston, Houston, Texas, USA.

出版信息

AMIA Annu Symp Proc. 2022 Feb 21;2021:1264-1273. eCollection 2021.

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8861742/

Abstract

During the coronavirus disease pandemic (COVID-19), social media platforms such as Twitter have become a venue for individuals, health professionals, and government agencies to share COVID-19 information. Twitter has been a popular source of data for researchers, especially for public health studies. However, the use of Twitter data for research also has drawbacks and barriers. Biases appear everywhere from data collection methods to modeling approaches, and those biases have not been systematically assessed. In this study, we examined six different data collection methods and three different machine learning (ML) models-commonly used in social media analysis-to assess data collection bias and measure ML models' sensitivity to data collection bias. We showed that (1) publicly available Twitter data collection endpoints with appropriate strategies can collect data that is reasonably representative of the Twitter universe; and (2) careful examinations of ML models' sensitivity to data collection bias are critical.

摘要

在冠状病毒病大流行（COVID-19）期间，Twitter 等社交媒体平台已成为个人、医疗专业人员和政府机构分享 COVID-19 信息的场所。Twitter 一直是研究人员，尤其是公共卫生研究人员的热门数据来源。然而，使用 Twitter 数据进行研究也有缺点和障碍。从数据收集方法到建模方法，都存在偏见，而且这些偏见尚未得到系统评估。在这项研究中，我们检查了六种不同的数据收集方法和三种不同的机器学习（ML）模型——社交媒体分析中常用的模型，以评估数据收集偏差并衡量 ML 模型对数据收集偏差的敏感性。我们表明：（1）使用适当策略的公开可用的 Twitter 数据收集终结点可以收集到相对合理地代表 Twitter 宇宙的数据集；（2）仔细检查 ML 模型对数据收集偏差的敏感性至关重要。

相似文献

1

Data and Model Biases in Social Media Analyses: A Case Study of COVID-19 Tweets.社交媒体分析中的数据和模型偏差：以 COVID-19 推文为例。

AMIA Annu Symp Proc. 2022 Feb 21;2021:1264-1273. eCollection 2021.

2

Twitter Discussions and Emotions About the COVID-19 Pandemic: Machine Learning Approach.关于新冠疫情的推特讨论与情绪：机器学习方法

J Med Internet Res. 2020 Nov 25;22(11):e20550. doi: 10.2196/20550.

3

Detection of Hate Speech in COVID-19-Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach.检测阿拉伯地区与 COVID-19 相关推文的仇恨言论：深度学习和主题建模方法。

J Med Internet Res. 2020 Dec 8;22(12):e22609. doi: 10.2196/22609.

4

Applying Multiple Data Collection Tools to Quantify Human Papillomavirus Vaccine Communication on Twitter.应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播情况

J Med Internet Res. 2016 Dec 5;18(12):e318. doi: 10.2196/jmir.6670.

5

COVID-19: Detecting Government Pandemic Measures and Public Concerns from Twitter Arabic Data Using Distributed Machine Learning.COVID-19：利用分布式机器学习从推特阿拉伯语数据中检测政府大流行病措施和公众关切。

Int J Environ Res Public Health. 2021 Jan 1;18(1):282. doi: 10.3390/ijerph18010282.

6

Examining Tweet Content and Engagement of Canadian Public Health Agencies and Decision Makers During COVID-19: Mixed Methods Analysis.研究 COVID-19 期间加拿大公共卫生机构和决策者的推文内容和参与度：混合方法分析。

J Med Internet Res. 2021 Mar 11;23(3):e24883. doi: 10.2196/24883.

7

COVID-19 Vaccine Hesitancy on Social Media: Building a Public Twitter Data Set of Antivaccine Content, Vaccine Misinformation, and Conspiracies.社交媒体上对 COVID-19 疫苗的犹豫：构建一个关于反疫苗内容、疫苗错误信息和阴谋论的公共 Twitter 数据集。

JMIR Public Health Surveill. 2021 Nov 17;7(11):e30642. doi: 10.2196/30642.

8

Understanding public perception of coronavirus disease 2019 (COVID-19) social distancing on Twitter.理解公众对 2019 冠状病毒病（COVID-19）社交距离的看法 Twitter 上的。

Infect Control Hosp Epidemiol. 2021 Feb;42(2):131-138. doi: 10.1017/ice.2020.406. Epub 2020 Aug 6.

9

Conversations and Medical News Frames on Twitter: Infodemiological Study on COVID-19 in South Korea.推特上的对话与医学新闻框架：韩国新冠肺炎信息流行病学研究

J Med Internet Res. 2020 May 5;22(5):e18897. doi: 10.2196/18897.

10

Topics, Trends, and Sentiments of Tweets About the COVID-19 Pandemic: Temporal Infoveillance Study.关于新冠疫情的推文主题、趋势和情绪：时间信息监测研究

J Med Internet Res. 2020 Oct 23;22(10):e22624. doi: 10.2196/22624.

引用本文的文献

1

Stigma of Dementia on Social Media During World Alzheimer's Awareness Month: Thematic Analysis of Posts.世界老年痴呆症宣传月期间社交媒体上痴呆症的污名化：帖子的主题分析

JMIR Form Res. 2025 Jun 2;9:e72775. doi: 10.2196/72775.

2

Beyond the Posts: Analyzing Breast Implant Illness Discourse With Natural Language Processing and Deep Learning.超越帖子：使用自然语言处理和深度学习分析隆胸疾病话语

Aesthet Surg J. 2025 Jun 16;45(7):745-752. doi: 10.1093/asj/sjaf047.

3

Social Media Posts About Carpal Tunnel Release: A Cross-Sectional Analysis of Patient and Surgeon Perspectives.关于腕管松解术的社交媒体帖子：患者和外科医生观点的横断面分析。

Hand (N Y). 2024 Feb 22:15589447241231293. doi: 10.1177/15589447241231293.

4

Social Media Posts About Distal Radius Fracture: A Cross-Sectional Analysis of Patient and Provider Perspectives.关于桡骨远端骨折的社交媒体帖子：患者和提供者观点的横断面分析

Hand (N Y). 2025 May;20(3):387-393. doi: 10.1177/15589447231219290. Epub 2024 Jan 2.

5

Tweeting for Health Using Real-time Mining and Artificial Intelligence-Based Analytics: Design and Development of a Big Data Ecosystem for Detecting and Analyzing Misinformation on Twitter.利用实时挖掘和基于人工智能的分析进行健康宣传：用于检测和分析 Twitter 上错误信息的大数据生态系统的设计与开发。

J Med Internet Res. 2023 Jun 9;25:e44356. doi: 10.2196/44356.

本文引用的文献

1

Twitter Discussions and Emotions About the COVID-19 Pandemic: Machine Learning Approach.关于新冠疫情的推特讨论与情绪：机器学习方法

J Med Internet Res. 2020 Nov 25;22(11):e20550. doi: 10.2196/20550.

2

Machine Learning to Detect Self-Reporting of Symptoms, Testing Access, and Recovery Associated With COVID-19 on Twitter: Retrospective Big Data Infoveillance Study.基于机器学习的方法在推特上检测与 COVID-19 相关的自我报告症状、检测途径和康复情况：回顾性大数据信息监测研究。

JMIR Public Health Surveill. 2020 Jun 8;6(2):e19509. doi: 10.2196/19509.

3

Coronavirus Goes Viral: Quantifying the COVID-19 Misinformation Epidemic on Twitter.冠状病毒迅速传播：量化推特上关于新冠疫情的错误信息传播情况

Cureus. 2020 Mar 13;12(3):e7255. doi: 10.7759/cureus.7255.

4

Mining Twitter to assess the determinants of health behavior toward human papillomavirus vaccination in the United States.利用 Twitter 评估美国针对人乳头瘤病毒疫苗接种的健康行为的决定因素。

J Am Med Inform Assoc. 2020 Feb 1;27(2):225-235. doi: 10.1093/jamia/ocz191.

5

User's guide to correlation coefficients.相关系数用户指南。

Turk J Emerg Med. 2018 Aug 7;18(3):91-93. doi: 10.1016/j.tjem.2018.08.001. eCollection 2018 Sep.

6

Using Social Media Data to Understand the Impact of Promotional Information on Laypeople's Discussions: A Case Study of Lynch Syndrome.利用社交媒体数据了解宣传信息对普通民众讨论的影响：以林奇综合征为例

J Med Internet Res. 2017 Dec 13;19(12):e414. doi: 10.2196/jmir.9266.

7

Using Twitter to Measure Public Discussion of Diseases: A Case Study.利用 Twitter 衡量公众对疾病的讨论：一项案例研究。

JMIR Public Health Surveill. 2015 Jun 26;1(1):e6. doi: 10.2196/publichealth.3953.

8

Garbage in, Garbage Out: Data Collection, Quality Assessment and Reporting Standards for Social Media Data Use in Health Research, Infodemiology and Digital Disease Detection.输入垃圾，输出垃圾：健康研究、信息流行病学和数字疾病检测中社交媒体数据使用的数据收集、质量评估及报告标准

J Med Internet Res. 2016 Feb 26;18(2):e41. doi: 10.2196/jmir.4738.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验