• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

从文献中提取数据提交声明:一种自动跟踪研究结果的方法。

Extraction of data deposition statements from the literature: a method for automatically tracking research results.

机构信息

National Center for Biotechnology Information, National Library of Medicine, Bethesda, Maryland 20894, USA.

出版信息

Bioinformatics. 2011 Dec 1;27(23):3306-12. doi: 10.1093/bioinformatics/btr573. Epub 2011 Oct 13.

DOI:10.1093/bioinformatics/btr573
PMID:21998156
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3223368/
Abstract

MOTIVATION

Research in the biomedical domain can have a major impact through open sharing of the data produced. For this reason, it is important to be able to identify instances of data production and deposition for potential re-use. Herein, we report on the automatic identification of data deposition statements in research articles.

RESULTS

We apply machine learning algorithms to sentences extracted from full-text articles in PubMed Central in order to automatically determine whether a given article contains a data deposition statement, and retrieve the specific statements. With an Support Vector Machine classifier using conditional random field determined deposition features, articles containing deposition statements are correctly identified with 81% F-measure. An error analysis shows that almost half of the articles classified as containing a deposition statement by our method but not by the gold standard do indeed contain a deposition statement. In addition, our system was used to process articles in PubMed Central, predicting that a total of 52 932 articles report data deposition, many of which are not currently included in the Secondary Source Identifier [si] field for MEDLINE citations.

AVAILABILITY

All annotated datasets described in this study are freely available from the NLM/NCBI website at http://www.ncbi.nlm.nih.gov/CBBresearch/Fellows/Neveol/DepositionDataSets.zip

CONTACT

aurelie.neveol@nih.gov; john.wilbur@nih.gov; zhiyong.lu@nih.gov

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

通过开放共享所产生的数据,生物医学领域的研究可以产生重大影响。出于这个原因,能够识别数据产生和存储的实例以便潜在地重用是很重要的。在此,我们报告了在研究文章中自动识别数据存储声明的方法。

结果

我们应用机器学习算法来处理从 PubMed Central 中的全文文章中提取的句子,以便自动确定给定的文章是否包含数据存储声明,并检索特定的声明。使用基于支持向量机的分类器和条件随机场确定的存储特征,包含存储声明的文章的正确识别率为 81%的 F 度量。错误分析表明,我们的方法分类为包含存储声明的文章中,有近一半实际上确实包含存储声明,但这些文章未被黄金标准所识别。此外,我们的系统还用于处理 PubMed Central 中的文章,预测共有 52932 篇文章报告了数据存储,其中许多文章目前并未包含在 MEDLINE 引用的二级来源标识符[si]字段中。

可用性

本研究中描述的所有注释数据集均可从 NLM/NCBI 网站免费获得,网址为 http://www.ncbi.nlm.nih.gov/CBBresearch/Fellows/Neveol/DepositionDataSets.zip。

联系方式

aurelie.neveol@nih.gov; john.wilbur@nih.gov; zhiyong.lu@nih.gov

补充信息

补充数据可在 Bioinformatics 在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f0aa/3223368/550aea35d26a/btr573f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f0aa/3223368/6782d4473778/btr573f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f0aa/3223368/550aea35d26a/btr573f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f0aa/3223368/6782d4473778/btr573f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f0aa/3223368/550aea35d26a/btr573f2.jpg

相似文献

1
Extraction of data deposition statements from the literature: a method for automatically tracking research results.从文献中提取数据提交声明:一种自动跟踪研究结果的方法。
Bioinformatics. 2011 Dec 1;27(23):3306-12. doi: 10.1093/bioinformatics/btr573. Epub 2011 Oct 13.
2
NLM-Chem-BC7: manually annotated full-text resources for chemical entity annotation and indexing in biomedical articles.NLM-Chem-BC7:用于生物医学文章中化学实体注释和索引的人工标注全文资源。
Database (Oxford). 2022 Dec 1;2022. doi: 10.1093/database/baac102.
3
Automatic recognition of conceptualization zones in scientific articles and two life science applications.科学文章中概念化区域的自动识别及两个生命科学应用。
Bioinformatics. 2012 Apr 1;28(7):991-1000. doi: 10.1093/bioinformatics/bts071. Epub 2012 Feb 8.
4
DNorm: disease name normalization with pairwise learning to rank.DNorm:基于对分学习排序的疾病名称标准化。
Bioinformatics. 2013 Nov 15;29(22):2909-17. doi: 10.1093/bioinformatics/btt474. Epub 2013 Aug 21.
5
Chemical identification and indexing in full-text articles: an overview of the NLM-Chem track at BioCreative VII.全文文章中的化学物质鉴定与标引:NLM-Chem 在 BioCreative VII 挑战赛中的概述
Database (Oxford). 2023 Mar 7;2023. doi: 10.1093/database/baad005.
6
NLM-Gene, a richly annotated gold standard dataset for gene entities that addresses ambiguity and multi-species gene recognition.NLM-Gene,一个丰富注释的基因实体黄金标准数据集,解决了模糊性和多物种基因识别问题。
J Biomed Inform. 2021 Jun;118:103779. doi: 10.1016/j.jbi.2021.103779. Epub 2021 Apr 9.
7
PubMed Text Similarity Model and its application to curation efforts in the Conserved Domain Database.PubMed 文本相似度模型及其在保守域数据库编目工作中的应用。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz064.
8
Beyond accuracy: creating interoperable and scalable text-mining web services.超越准确性:创建可互操作且可扩展的文本挖掘网络服务。
Bioinformatics. 2016 Jun 15;32(12):1907-10. doi: 10.1093/bioinformatics/btv760. Epub 2016 Feb 16.
9
Retro: concept-based clustering of biomedical topical sets.回溯:基于概念的生物医学主题集聚类。
Bioinformatics. 2014 Nov 15;30(22):3240-8. doi: 10.1093/bioinformatics/btu514. Epub 2014 Jul 29.
10
Active learning-based information structure analysis of full scientific articles and two applications for biomedical literature review.基于主动学习的全文信息结构分析及其在生物医学文献综述中的两个应用。
Bioinformatics. 2013 Jun 1;29(11):1440-7. doi: 10.1093/bioinformatics/btt163. Epub 2013 Apr 5.

引用本文的文献

1
Automatic recognition of self-acknowledged limitations in clinical research literature.临床研究文献中自我承认局限性的自动识别。
J Am Med Inform Assoc. 2018 Jul 1;25(7):855-861. doi: 10.1093/jamia/ocy038.
2
Biomedical text mining for research rigor and integrity: tasks, challenges, directions.生物医学文本挖掘的研究严谨性和完整性:任务、挑战和方向。
Brief Bioinform. 2018 Nov 27;19(6):1400-1414. doi: 10.1093/bib/bbx057.
3
Sizing the Problem of Improving Discovery and Access to NIH-Funded Data: A Preliminary Study.评估改善 NIH 资助数据发现和获取问题的规模:一项初步研究。

本文引用的文献

1
Protein interaction sentence detection using multiple semantic kernels.使用多个语义内核进行蛋白质相互作用句子检测。
J Biomed Semantics. 2011 May 14;2(1):1. doi: 10.1186/2041-1480-2-1.
2
Automatic classification of sentences to support Evidence Based Medicine.支持循证医学的句子自动分类。
BMC Bioinformatics. 2011 Mar 29;12 Suppl 2(Suppl 2):S5. doi: 10.1186/1471-2105-12-S2-S5.
3
A retrospective cohort study of structured abstracts in MEDLINE, 1992-2006.一项对1992年至2006年MEDLINE中结构化摘要的回顾性队列研究。
PLoS One. 2015 Jul 24;10(7):e0132735. doi: 10.1371/journal.pone.0132735. eCollection 2015.
4
Database citation in supplementary data linked to Europe PubMed Central full text biomedical articles.与欧洲 PubMed 中心全文生物医学文章相关的补充数据中的数据库引用。
J Biomed Semantics. 2015 Jan 5;6:1. doi: 10.1186/2041-1480-6-1. eCollection 2015.
5
An analysis on the entity annotations in biological corpora.生物语料库中实体注释的分析。
F1000Res. 2014 Apr 25;3:96. doi: 10.12688/f1000research.3216.1. eCollection 2014.
6
Overview of the gene ontology task at BioCreative IV.生物创意IV基因本体任务概述。
Database (Oxford). 2014 Aug 25;2014. doi: 10.1093/database/bau086. Print 2014.
7
BC4GO: a full-text corpus for the BioCreative IV GO task.BC4GO:用于生物创意IV基因本体任务的全文语料库。
Database (Oxford). 2014 Jul 28;2014. doi: 10.1093/database/bau074. Print 2014.
8
Experimental design-based functional mining and characterization of high-throughput sequencing data in the sequence read archive.基于实验设计的高通量测序数据在序列读取档案中的功能挖掘和特征描述。
PLoS One. 2013 Oct 22;8(10):e77910. doi: 10.1371/journal.pone.0077910. eCollection 2013.
9
Database citation in full text biomedical articles.全文生物医学文章中的数据库引文。
PLoS One. 2013 May 29;8(5):e63184. doi: 10.1371/journal.pone.0063184. Print 2013.
10
Improving links between literature and biological data with text mining: a case study with GEO, PDB and MEDLINE.利用文本挖掘技术改善文献与生物数据之间的联系:以 GEO、PDB 和 MEDLINE 为例的研究。
Database (Oxford). 2012 Jun 8;2012:bas026. doi: 10.1093/database/bas026. Print 2012.
J Med Libr Assoc. 2011 Apr;99(2):160-3. doi: 10.3163/1536-5050.99.2.009.
4
Public sharing of research datasets: a pilot study of associations.研究数据集的公开共享:关联的一项试点研究
J Informetr. 2010 Apr;4(2):148-156. doi: 10.1016/j.joi.2009.11.010.
5
Annotating genes and genomes with DNA sequences extracted from biomedical articles.从生物医学文章中提取的 DNA 序列注释基因和基因组。
Bioinformatics. 2011 Apr 1;27(7):980-6. doi: 10.1093/bioinformatics/btr043. Epub 2011 Feb 16.
6
Much room for improvement in deposition rates of expression microarray datasets.表达微阵列数据集的沉积率有很大的改进空间。
Nat Methods. 2008 Dec;5(12):991. doi: 10.1038/nmeth1208-991.
7
Emerging trend prediction in biomedical literature.生物医学文献中的新兴趋势预测
AMIA Annu Symp Proc. 2008 Nov 6;2008:485-9.
8
Identifying data sharing in biomedical literature.识别生物医学文献中的数据共享情况。
AMIA Annu Symp Proc. 2008 Nov 6;2008:596-600.
9
Overview of the protein-protein interaction annotation extraction task of BioCreative II.生物创意II蛋白质-蛋白质相互作用注释提取任务概述。
Genome Biol. 2008;9 Suppl 2(Suppl 2):S4. doi: 10.1186/gb-2008-9-s2-s4. Epub 2008 Sep 1.
10
ArrayWiki: an enabling technology for sharing public microarray data repositories and meta-analyses.ArrayWiki:一种用于共享公共微阵列数据存储库和荟萃分析的支持技术。
BMC Bioinformatics. 2008 May 28;9 Suppl 6(Suppl 6):S18. doi: 10.1186/1471-2105-9-S6-S18.