• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

三种自动化文本分析家族。

Three families of automated text analysis.

机构信息

Stanford University, USA.

出版信息

Soc Sci Res. 2022 Nov;108:102798. doi: 10.1016/j.ssresearch.2022.102798. Epub 2022 Oct 1.

DOI:10.1016/j.ssresearch.2022.102798
PMID:36334926
Abstract

Since the beginning of this millennium, data in the form of human-generated text in a machine-readable format has become increasingly available to social scientists, presenting a unique window into social life. However, harnessing vast quantities of this highly unstructured data in a systematic way presents a unique combination of analytical and methodological challenges. Luckily, our understanding of how to overcome these challenges has also developed greatly over this same period. In this article, I present a novel typology of the methods social scientists have used to analyze text data at scale in the interest of testing and developing social theory. I describe three "families" of methods: analyses of (1) term frequency, (2) document structure, and (3) semantic similarity. For each family of methods, I discuss their logical and statistical foundations, analytical strengths and weaknesses, as well as prominent variants and applications.

摘要

自本世纪初以来,以机器可读格式生成的人类文本形式的数据越来越多地为社会科学家所获取,为了解社会生活提供了独特的窗口。然而,以系统的方式利用大量这种高度非结构化的数据带来了独特的分析和方法学挑战的组合。幸运的是,在同一时期,我们对如何克服这些挑战的理解也有了很大的发展。在本文中,我提出了一种新的社会科学家用于在大规模上分析文本数据以检验和发展社会理论的方法的分类法。我描述了三种"方法家族":(1)词频分析、(2)文档结构分析和(3)语义相似性分析。对于每种方法家族,我讨论了它们的逻辑和统计基础、分析的优缺点,以及突出的变体和应用。

相似文献

1
Three families of automated text analysis.三种自动化文本分析家族。
Soc Sci Res. 2022 Nov;108:102798. doi: 10.1016/j.ssresearch.2022.102798. Epub 2022 Oct 1.
2
In the pursuit of a semantic similarity metric based on UMLS annotations for articles in PubMed Central Open Access.在为美国国立医学图书馆医学主题词表(UMLS)注释的基于PubMed Central开放获取文章的语义相似性度量标准的研究中。
J Biomed Inform. 2015 Oct;57:204-18. doi: 10.1016/j.jbi.2015.07.015. Epub 2015 Aug 1.
3
Context Matters: Recovering Human Semantic Structure from Machine Learning Analysis of Large-Scale Text Corpora.语境至关重要:从大规模文本语料库的机器学习分析中恢复人类语义结构。
Cogn Sci. 2022 Feb;46(2):e13085. doi: 10.1111/cogs.13085.
4
Corpus domain effects on distributional semantic modeling of medical terms.语料库领域对医学术语分布语义建模的影响。
Bioinformatics. 2016 Dec 1;32(23):3635-3644. doi: 10.1093/bioinformatics/btw529. Epub 2016 Aug 16.
5
Text mining for social science - The state and the future of computational text analysis in sociology.文本挖掘在社会科学中的应用——社会学中计算文本分析的现状与未来。
Soc Sci Res. 2022 Nov;108:102784. doi: 10.1016/j.ssresearch.2022.102784. Epub 2022 Sep 2.
6
An Efficient Parallelized Ontology Network-Based Semantic Similarity Measure for Big Biomedical Document Clustering.一种用于大规模生物医学文档聚类的基于有效并行化本体网络的语义相似度度量方法。
Comput Math Methods Med. 2021 Nov 9;2021:7937573. doi: 10.1155/2021/7937573. eCollection 2021.
7
Constructing a biodiversity terminological inventory.构建生物多样性术语库
PLoS One. 2017 Apr 17;12(4):e0175277. doi: 10.1371/journal.pone.0175277. eCollection 2017.
8
A survey of ontology learning techniques and applications.本体学习技术与应用综述
Database (Oxford). 2018 Jan 1;2018:bay101. doi: 10.1093/database/bay101.
9
ELaPro, a LOINC-mapped core dataset for top laboratory procedures of eligibility screening for clinical trials.ELaPro,一个 LOINC 映射的核心数据集,用于临床试验资格筛选的顶级实验室程序。
BMC Med Res Methodol. 2022 May 14;22(1):141. doi: 10.1186/s12874-022-01611-y.
10
An ontology-based similarity measure for biomedical data-application to radiology reports.基于本体的生物医学数据相似度测量-在放射学报告中的应用。
J Biomed Inform. 2013 Oct;46(5):857-68. doi: 10.1016/j.jbi.2013.06.013. Epub 2013 Jul 11.

引用本文的文献

1
Using Natural Language Processing to Track Negative Emotions in the Daily Lives of Adolescents.利用自然语言处理技术追踪青少年日常生活中的负面情绪。
Res Sq. 2025 Apr 17:rs.3.rs-6414400. doi: 10.21203/rs.3.rs-6414400/v1.