• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

从 PubMed Central 中挖掘基因座标签以改进微生物基因注释。

Mining locus tags in PubMed Central to improve microbial gene annotation.

机构信息

Bioscience Division, Los Alamos National Laboratory, Los Alamos, NM, USA.

出版信息

BMC Bioinformatics. 2014 Feb 5;15:43. doi: 10.1186/1471-2105-15-43.

DOI:10.1186/1471-2105-15-43
PMID:24499370
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3937057/
Abstract

BACKGROUND

The scientific literature contains millions of microbial gene identifiers within the full text and tables, but these annotations rarely get incorporated into public sequence databases. We propose to utilize the Open Access (OA) subset of PubMed Central (PMC) as a gene annotation database and have developed an R package called pmcXML to automatically mine and extract locus tags from full text, tables and supplements.

RESULTS

We mined locus tags from 1835 OA publications in ten microbial genomes and extracted tags mentioned in 30,891 sentences in main text and 20,489 rows in tables. We identified locus tag pairs marking the start and end of a region such as an operon or genomic island and expanded these ranges to add another 13,043 tags. We also searched for locus tags in supplementary tables and publications outside the OA subset in Burkholderia pseudomallei K96243 for comparison. There were 168 publications containing 48,470 locus tags and 83% of mentions were from supplementary materials and 9% from publications outside the OA subset.

CONCLUSIONS

B. pseudomallei locus tags within the full text and tables of OA publications represent only a small fraction of the total mentions in the literature. For microbial genomes with very few functionally characterized proteins, the locus tags mentioned in supplementary tables and within ranges like genomic islands contain the majority of locus tags. Significantly, the functions in the R package provide access to additional resources in the OA subset that are not currently indexed or returned by searching PMC.

摘要

背景

科学文献中包含数以百万计的微生物基因标识符,这些标识符存在于全文和表格中,但这些注释很少被整合到公共序列数据库中。我们建议利用 PubMed Central (PMC) 的开放获取 (OA) 子集作为基因注释数据库,并开发了一个名为 pmcXML 的 R 包,用于自动从全文、表格和补充材料中挖掘和提取基因座标签。

结果

我们从十个微生物基因组的 1835 篇 OA 出版物中挖掘了基因座标签,并从正文的 30891 个句子和表格的 20489 行中提取了标签。我们确定了标记基因座标签的基因座标签对,这些标签对标记了操纵子或基因组岛等区域的起始和结束位置,并扩展了这些范围,添加了另外 13043 个标签。我们还在 Burkholderia pseudomallei K96243 的补充表格和 OA 子集中之外的出版物中搜索基因座标签进行比较。有 168 篇出版物包含 48470 个基因座标签,90%的提及来自补充材料,9%来自 OA 子集之外的出版物。

结论

OA 出版物的全文和表格中的 B. pseudomallei 基因座标签仅代表文献中总提及的一小部分。对于功能特征蛋白很少的微生物基因组,补充表格和基因组岛等范围内提到的基因座标签包含了大部分基因座标签。重要的是,R 包中的功能提供了对 OA 子集中未被索引或通过搜索 PMC 返回的其他资源的访问权限。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a488/3937057/c49e199d39eb/1471-2105-15-43-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a488/3937057/be400e89022b/1471-2105-15-43-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a488/3937057/c49e199d39eb/1471-2105-15-43-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a488/3937057/be400e89022b/1471-2105-15-43-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a488/3937057/c49e199d39eb/1471-2105-15-43-2.jpg

相似文献

1
Mining locus tags in PubMed Central to improve microbial gene annotation.从 PubMed Central 中挖掘基因座标签以改进微生物基因注释。
BMC Bioinformatics. 2014 Feb 5;15:43. doi: 10.1186/1471-2105-15-43.
2
Textpresso Central: a customizable platform for searching, text mining, viewing, and curating biomedical literature.Textpresso 中心:一个可定制的平台,用于搜索、文本挖掘、查看和管理生物医学文献。
BMC Bioinformatics. 2018 Mar 9;19(1):94. doi: 10.1186/s12859-018-2103-8.
3
Analyzing the Information Content of Text-Based Files in Supplementary Materials of Biomedical Literature.分析生物医学文献补充材料中基于文本文件的信息含量。
Stud Health Technol Inform. 2022 May 25;294:876-877. doi: 10.3233/SHTI220614.
4
QTLTableMiner: semantic mining of QTL tables in scientific articles.QTLTableMiner:科学文章中QTL表格的语义挖掘
BMC Bioinformatics. 2018 May 25;19(1):183. doi: 10.1186/s12859-018-2165-7.
5
Annotating genes and genomes with DNA sequences extracted from biomedical articles.从生物医学文章中提取的 DNA 序列注释基因和基因组。
Bioinformatics. 2011 Apr 1;27(7):980-6. doi: 10.1093/bioinformatics/btr043. Epub 2011 Feb 16.
6
A study on PubMed search tag usage pattern: association rule mining of a full-day PubMed query log.对 PubMed 搜索标签使用模式的研究:一整天 PubMed 查询日志的关联规则挖掘。
BMC Med Inform Decis Mak. 2013 Jan 9;13:8. doi: 10.1186/1472-6947-13-8.
7
tagtog: interactive and text-mining-assisted annotation of gene mentions in PLOS full-text articles.tagtog:在 PLoS 全文文章中进行基因提及的交互式和文本挖掘辅助注释。
Database (Oxford). 2014 Apr 7;2014(0):bau033. doi: 10.1093/database/bau033. Print 2014.
8
QTLMiner: QTL database curation by mining tables in literature.QTLMiner:通过挖掘文献中的表格来进行 QTL 数据库编修。
Bioinformatics. 2015 May 15;31(10):1689-91. doi: 10.1093/bioinformatics/btv016. Epub 2015 Jan 12.
9
Generating the Blood Exposome Database Using a Comprehensive Text Mining and Database Fusion Approach.运用全面的文本挖掘和数据库融合方法生成血液外显子组数据库。
Environ Health Perspect. 2019 Sep;127(9):97008. doi: 10.1289/EHP4713. Epub 2019 Sep 26.
10
The articles.ELM resource: simplifying access to protein linear motif literature by annotation, text-mining and classification.文章.ELM 资源:通过注释、文本挖掘和分类简化蛋白质线性基序文献的访问
Database (Oxford). 2020 Jan 1;2020. doi: 10.1093/database/baaa040.

本文引用的文献

1
Database citation in full text biomedical articles.全文生物医学文章中的数据库引文。
PLoS One. 2013 May 29;8(5):e63184. doi: 10.1371/journal.pone.0063184. Print 2013.
2
Text-mining solutions for biomedical research: enabling integrative biology.文本挖掘在生物医学研究中的应用:实现综合生物学。
Nat Rev Genet. 2012 Dec;13(12):829-39. doi: 10.1038/nrg3337. Epub 2012 Nov 14.
3
Literature retrieval and mining in bioinformatics: state of the art and challenges.生物信息学中的文献检索与挖掘:现状与挑战
Adv Bioinformatics. 2012;2012:573846. doi: 10.1155/2012/573846. Epub 2012 Jun 21.
4
Improving links between literature and biological data with text mining: a case study with GEO, PDB and MEDLINE.利用文本挖掘技术改善文献与生物数据之间的联系:以 GEO、PDB 和 MEDLINE 为例的研究。
Database (Oxford). 2012 Jun 8;2012:bas026. doi: 10.1093/database/bas026. Print 2012.
5
Genomic islands as a marker to differentiate between clinical and environmental Burkholderia pseudomallei.基因组岛作为区分临床和环境型伯克霍尔德菌属假单胞菌的标记。
PLoS One. 2012;7(6):e37762. doi: 10.1371/journal.pone.0037762. Epub 2012 Jun 1.
6
How to link ontologies and protein-protein interactions to literature: text-mining approaches and the BioCreative experience.如何将本体和蛋白质-蛋白质相互作用与文献联系起来:文本挖掘方法和 BioCreative 的经验。
Database (Oxford). 2012 Mar 21;2012:bas017. doi: 10.1093/database/bas017. Print 2012.
7
Trouble at the text mine.文本挖掘中的问题。
Nature. 2012 Mar 7;483(7388):134-5. doi: 10.1038/483134a.
8
Solving the Problem: Genome Annotation Standards before the Data Deluge.解决问题:数据洪流之前的基因组注释标准
Stand Genomic Sci. 2011 Oct 15;5(1):168-93. doi: 10.4056/sigs.2084864. Epub 2011 Oct 1.
9
A Burkholderia pseudomallei toxin inhibits helicase activity of translation factor eIF4A.伯克霍尔德氏菌假单胞菌毒素抑制翻译因子 eIF4A 的解旋酶活性。
Science. 2011 Nov 11;334(6057):821-4. doi: 10.1126/science.1211915.
10
pubmed2ensembl: a resource for mining the biological literature on genes.pubmed2ensembl:一个挖掘基因相关生物文献的资源
PLoS One. 2011;6(9):e24716. doi: 10.1371/journal.pone.0024716. Epub 2011 Sep 29.