• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

PMC 文本挖掘子集在 BioC 中:约三百万篇全文文章且还在不断增加。

PMC text mining subset in BioC: about three million full-text articles and growing.

机构信息

National Center for Biotechnology Information (NCBI), U.S. Library of Medicine (NLM), National Institutes of Health (NIH), Bethesda, MD, USA.

出版信息

Bioinformatics. 2019 Sep 15;35(18):3533-3535. doi: 10.1093/bioinformatics/btz070.

DOI:10.1093/bioinformatics/btz070
PMID:30715220
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6748740/
Abstract

MOTIVATION

Interest in text mining full-text biomedical research articles is growing. To facilitate automated processing of nearly 3 million full-text articles (in PubMed Central® Open Access and Author Manuscript subsets) and to improve interoperability, we convert these articles to BioC, a community-driven simple data structure in either XML or JavaScript Object Notation format for conveniently sharing text and annotations.

RESULTS

The resultant articles can be downloaded via both File Transfer Protocol for bulk access and a Web API for updates or a more focused collection. Since the availability of the Web API in 2017, our BioC collection has been widely used by the research community.

AVAILABILITY AND IMPLEMENTATION

https://www.ncbi.nlm.nih.gov/research/bionlp/APIs/BioC-PMC/.

摘要

动机

对全文生物医学研究文章的文本挖掘的兴趣日益浓厚。为了方便自动处理近 300 万篇全文文章(在 PubMed Central®开放获取和作者手稿子集中)并提高互操作性,我们将这些文章转换为 BioC,这是一种社区驱动的简单数据结构,采用 XML 或 JavaScript 对象表示法格式,用于方便地共享文本和注释。

结果

可以通过文件传输协议(用于批量访问)和 Web API(用于更新或更集中的集合)下载生成的文章。自 2017 年 Web API 可用以来,我们的 BioC 集合已被研究界广泛使用。

可用性和实现

https://www.ncbi.nlm.nih.gov/research/bionlp/APIs/BioC-PMC/。

相似文献

1
PMC text mining subset in BioC: about three million full-text articles and growing.PMC 文本挖掘子集在 BioC 中:约三百万篇全文文章且还在不断增加。
Bioinformatics. 2019 Sep 15;35(18):3533-3535. doi: 10.1093/bioinformatics/btz070.
2
tmBioC: improving interoperability of text-mining tools with BioC.tmBioC:提高文本挖掘工具与BioC的互操作性。
Database (Oxford). 2014 Jul 25;2014. doi: 10.1093/database/bau073. Print 2014.
3
PubTator central: automated concept annotation for biomedical full text articles.PubTator 中心:用于生物医学全文文章的自动概念标注。
Nucleic Acids Res. 2019 Jul 2;47(W1):W587-W593. doi: 10.1093/nar/gkz389.
4
Beyond accuracy: creating interoperable and scalable text-mining web services.超越准确性:创建可互操作且可扩展的文本挖掘网络服务。
Bioinformatics. 2016 Jun 15;32(12):1907-10. doi: 10.1093/bioinformatics/btv760. Epub 2016 Feb 16.
5
Finding abbreviations in biomedical literature: three BioC-compatible modules and four BioC-formatted corpora.在生物医学文献中查找缩写:三个生物医学信息交换格式(BioC)兼容模块和四个BioC格式语料库。
Database (Oxford). 2014 Jun 9;2014. doi: 10.1093/database/bau044. Print 2014.
6
BioC interoperability track overview.生物信息学互操作性赛道概述。
Database (Oxford). 2014 Jun 30;2014. doi: 10.1093/database/bau053. Print 2014.
7
NLM-Chem-BC7: manually annotated full-text resources for chemical entity annotation and indexing in biomedical articles.NLM-Chem-BC7:用于生物医学文章中化学实体注释和索引的人工标注全文资源。
Database (Oxford). 2022 Dec 1;2022. doi: 10.1093/database/baac102.
8
BioC implementations in Go, Perl, Python and Ruby.用Go、Perl、Python和Ruby实现的BioC。
Database (Oxford). 2014 Jun 23;2014. doi: 10.1093/database/bau059. Print 2014.
9
BioC viewer: a web-based tool for displaying and merging annotations in BioC.BioC查看器:一种用于在BioC中显示和合并注释的基于网络的工具。
Database (Oxford). 2016 Aug 10;2016. doi: 10.1093/database/baw106. Print 2016.
10
PubMedPortable: A Framework for Supporting the Development of Text Mining Applications.PubMed便携式:支持文本挖掘应用开发的框架。
PLoS One. 2016 Oct 5;11(10):e0163794. doi: 10.1371/journal.pone.0163794. eCollection 2016.

引用本文的文献

1
Large language models can extract metadata for annotation of human neuroimaging publications.大型语言模型可以提取元数据,用于注释人类神经影像学术出版物。
Front Neuroinform. 2025 Aug 20;19:1609077. doi: 10.3389/fninf.2025.1609077. eCollection 2025.
2
A Narrative Review on Mobile Health (mHealth) App for Stroke Care and Rehabilitation Intervention for Malaysia.马来西亚中风护理与康复干预移动健康(mHealth)应用的叙述性综述
Malays J Med Sci. 2025 Jun 30;32(3):49. doi: 10.21315/mjms-03-2025-154.
3
Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.大语言模型可以提取元数据用于人类神经影像出版物的注释。
bioRxiv. 2025 May 14:2025.05.13.653828. doi: 10.1101/2025.05.13.653828.
4
Dataset from a human-in-the-loop approach to identify functionally important protein residues from literature.来自人机交互方法的数据集,用于从文献中识别功能重要的蛋白质残基。
Sci Data. 2024 Sep 27;11(1):1032. doi: 10.1038/s41597-024-03841-9.
5
STRING-ing together protein complexes: corpus and methods for extracting physical protein interactions from the biomedical literature.从生物医学文献中提取物理蛋白质相互作用的语料库和方法:将蛋白质复合物串联起来。
Bioinformatics. 2024 Sep 2;40(9). doi: 10.1093/bioinformatics/btae552.
6
RegulaTome: a corpus of typed, directed, and signed relations between biomedical entities in the scientific literature.RegulaTome:科学文献中生物医学实体之间的有类型、有方向和有签名的关系语料库。
Database (Oxford). 2024 Sep 12;2024. doi: 10.1093/database/baae095.
7
Improving dictionary-based named entity recognition with deep learning.利用深度学习改进基于字典的命名实体识别。
Bioinformatics. 2024 Sep 1;40(Suppl 2):ii45-ii52. doi: 10.1093/bioinformatics/btae402.
8
The biomedical relationship corpus of the BioRED track at the BioCreative VIII challenge and workshop.生物创意 VIII 挑战赛和研讨会的 BioRED 专题生物医学关系语料库。
Database (Oxford). 2024 Aug 9;2024. doi: 10.1093/database/baae071.
9
Machine Learning-based Analysis of Publications Funded by the National Institutes of Health's Initial COVID-19 Pandemic Response.基于机器学习对美国国立卫生研究院新冠疫情初期应对资助项目出版物的分析
Open Forum Infect Dis. 2024 Apr 24;11(4):ofae156. doi: 10.1093/ofid/ofae156. eCollection 2024 Apr.
10
RecSOI: recommending research directions using statements of ignorance.RecSOI:利用无知声明推荐研究方向
J Biomed Semantics. 2024 Apr 22;15(1):2. doi: 10.1186/s13326-024-00304-3.

本文引用的文献

1
A comprehensive and quantitative comparison of text-mining in 15 million full-text articles versus their corresponding abstracts.全面且定量地比较了 1500 万篇全文文章及其相应摘要中的文本挖掘。
PLoS Comput Biol. 2018 Feb 15;14(2):e1005962. doi: 10.1371/journal.pcbi.1005962. eCollection 2018 Feb.
2
From word models to executable models of signaling networks using automated assembly.使用自动化装配从单词模型到信号网络的可执行模型。
Mol Syst Biol. 2017 Nov 24;13(11):954. doi: 10.15252/msb.20177651.
3
SourceData: a semantic platform for curating and searching figures.源数据:一个用于整理和搜索图表的语义平台。
Nat Methods. 2017 Oct 31;14(11):1021-1022. doi: 10.1038/nmeth.4471.
4
The BioC-BioGRID corpus: full text articles annotated for curation of protein-protein and genetic interactions.BioC-BioGRID语料库:为蛋白质-蛋白质和基因相互作用的编目而注释的全文文章。
Database (Oxford). 2017 Jan 10;2017. doi: 10.1093/database/baw147. Print 2017.
5
Extending the evaluation of Genia Event task toward knowledge base construction and comparison to Gene Regulation Ontology task.将Genia事件任务的评估扩展到知识库构建,并与基因调控本体任务进行比较。
BMC Bioinformatics. 2015;16 Suppl 10(Suppl 10):S3. doi: 10.1186/1471-2105-16-S10-S3. Epub 2015 Jul 13.
6
Construction of phosphorylation interaction networks by text mining of full-length articles using the eFIP system.使用eFIP系统通过对全文进行文本挖掘构建磷酸化相互作用网络。
Database (Oxford). 2015 Mar 31;2015. doi: 10.1093/database/bav020. Print 2015.
7
Section level search functionality in Europe PMC.欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)维护的欧洲 PMC 中的章节级搜索功能。
J Biomed Semantics. 2015 Mar 10;6:7. doi: 10.1186/s13326-015-0003-7. eCollection 2015.
8
BC4GO: a full-text corpus for the BioCreative IV GO task.BC4GO:用于生物创意IV基因本体任务的全文语料库。
Database (Oxford). 2014 Jul 28;2014. doi: 10.1093/database/bau074. Print 2014.
9
BioC implementations in Go, Perl, Python and Ruby.用Go、Perl、Python和Ruby实现的BioC。
Database (Oxford). 2014 Jun 23;2014. doi: 10.1093/database/bau059. Print 2014.
10
Natural language processing pipelines to annotate BioC collections with an application to the NCBI disease corpus.用于注释BioC文集的自然语言处理管道及其在NCBI疾病语料库中的应用。
Database (Oxford). 2014 Jun 16;2014. doi: 10.1093/database/bau056. Print 2014.