• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基因领域:使用 Apache Kafka 作为生物信息学数据存储库。

Field of genes: using Apache Kafka as a bioinformatic data repository.

机构信息

Department of Computing, Cork Institute of Technology, Cork, Ireland.

NSilico Life Sciences Ltd., Cork, Ireland.

出版信息

Gigascience. 2018 Apr 1;7(4). doi: 10.1093/gigascience/giy036.

DOI:10.1093/gigascience/giy036
PMID:29635394
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5906921/
Abstract

BACKGROUND

Bioinformatic research is increasingly dependent on large-scale datasets, accessed either from private or public repositories. An example of a public repository is National Center for Biotechnology Information's (NCBI's) Reference Sequence (RefSeq). These repositories must decide in what form to make their data available. Unstructured data can be put to almost any use but are limited in how access to them can be scaled. Highly structured data offer improved performance for specific algorithms but limit the wider usefulness of the data. We present an alternative: lightly structured data stored in Apache Kafka in a way that is amenable to parallel access and streamed processing, including subsequent transformations into more highly structured representations. We contend that this approach could provide a flexible and powerful nexus of bioinformatic data, bridging the gap between low structure on one hand, and high performance and scale on the other. To demonstrate this, we present a proof-of-concept version of NCBI's RefSeq database using this technology. We measure the performance and scalability characteristics of this alternative with respect to flat files.

RESULTS

The proof of concept scales almost linearly as more compute nodes are added, outperforming the standard approach using files.

CONCLUSIONS

Apache Kafka merits consideration as a fast and more scalable but general-purpose way to store and retrieve bioinformatic data, for public, centralized reference datasets such as RefSeq and for private clinical and experimental data.

摘要

背景

生物信息学研究越来越依赖于大规模数据集,可以从私人或公共存储库中获取。公共存储库的一个例子是国家生物技术信息中心(NCBI)的参考序列(RefSeq)。这些存储库必须决定以何种形式提供其数据。非结构化数据几乎可以用于任何用途,但在访问方式上存在限制。高度结构化的数据为特定算法提供了更好的性能,但限制了数据的更广泛用途。我们提出了一种替代方案:以可并行访问和流处理的方式存储在 Apache Kafka 中的轻度结构化数据,包括随后转换为更高度结构化的表示形式。我们认为,这种方法可以提供一个灵活而强大的生物信息学数据枢纽,弥合低结构与高性能和大规模之间的差距。为了证明这一点,我们使用这种技术展示了 NCBI 的 RefSeq 数据库的概念验证版本。我们针对平面文件测量了这种替代方案的性能和可伸缩性特征。

结果

随着添加更多计算节点,该概念验证几乎呈线性扩展,性能优于使用文件的标准方法。

结论

Apache Kafka 值得考虑作为一种快速且更具可伸缩性但用途广泛的方法,用于存储和检索生物信息学数据,适用于公共的、集中式参考数据集,如 RefSeq,以及私人的临床和实验数据。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/85f5b87f30c3/giy036fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/c258564516af/giy036fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/9d06639d162c/giy036fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/ec808cdc055d/giy036fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/444a865cc8b7/giy036fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/a68b402cf886/giy036fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/62ab8d15ea68/giy036fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/ef4108de4c97/giy036fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/85f5b87f30c3/giy036fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/c258564516af/giy036fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/9d06639d162c/giy036fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/ec808cdc055d/giy036fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/444a865cc8b7/giy036fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/a68b402cf886/giy036fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/62ab8d15ea68/giy036fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/ef4108de4c97/giy036fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ca41/5906921/85f5b87f30c3/giy036fig8.jpg

相似文献

1
Field of genes: using Apache Kafka as a bioinformatic data repository.基因领域:使用 Apache Kafka 作为生物信息学数据存储库。
Gigascience. 2018 Apr 1;7(4). doi: 10.1093/gigascience/giy036.
2
Gene: a gene-centered information resource at NCBI.基因:美国国立医学图书馆国家生物技术信息中心的一个以基因为中心的信息资源库。
Nucleic Acids Res. 2015 Jan;43(Database issue):D36-42. doi: 10.1093/nar/gku1055. Epub 2014 Oct 29.
3
The Genomic Observatories Metadatabase (GeOMe): A new repository for field and sampling event metadata associated with genetic samples.基因组观测元数据库(GeOMe):一个用于存储与基因样本相关的野外和采样事件元数据的新库。
PLoS Biol. 2017 Aug 3;15(8):e2002925. doi: 10.1371/journal.pbio.2002925. eCollection 2017 Aug.
4
Improvement of Kafka Streaming Using Partition and Multi-Threading in Big Data Environment.大数据环境中使用分区和多线程改进 Kafka 流处理。
Sensors (Basel). 2019 Jan 2;19(1):134. doi: 10.3390/s19010134.
5
Mining microarray data at NCBI's Gene Expression Omnibus (GEO)*.在NCBI的基因表达综合数据库(GEO)中挖掘微阵列数据。
Methods Mol Biol. 2006;338:175-90. doi: 10.1385/1-59745-097-9:175.
6
Genomic databases and resources at the National Center for Biotechnology Information.美国国立生物技术信息中心的基因组数据库和资源。
Methods Mol Biol. 2010;609:17-44. doi: 10.1007/978-1-60327-241-4_2.
7
Database resources of the National Center for Biotechnology Information: 2002 update.国家生物技术信息中心的数据库资源:2002年更新版
Nucleic Acids Res. 2002 Jan 1;30(1):13-6. doi: 10.1093/nar/30.1.13.
8
Database resources of the National Center for Biotechnology Information: update.美国国立生物技术信息中心的数据库资源:更新
Nucleic Acids Res. 2004 Jan 1;32(Database issue):D35-40. doi: 10.1093/nar/gkh073.
9
Introduction to resources in molecular genetics.分子遗传学资源介绍
Med Ref Serv Q. 2001 Summer;20(2):33-50. doi: 10.1300/J115v20n02_04.
10
The NIF LinkOut broker: a web resource to facilitate federated data integration using NCBI identifiers.NIF 链接输出代理:一个使用 NCBI 标识符促进联合数据集成的网络资源。
Neuroinformatics. 2008 Sep;6(3):219-27. doi: 10.1007/s12021-008-9025-y. Epub 2008 Oct 31.

引用本文的文献

1
Review of open-source software for developing heterogeneous data management systems for bioinformatics applications.用于生物信息学应用开发异构数据管理系统的开源软件综述。
Bioinform Adv. 2025 Jul 18;5(1):vbaf168. doi: 10.1093/bioadv/vbaf168. eCollection 2025.
2
Integration of Blockchain, IoT and Machine Learning for Multistage Quality Control and Enhancing Security in Smart Manufacturing.区块链、物联网和机器学习在智能制造多阶段质量控制中的集成及安全增强。
Sensors (Basel). 2021 Feb 20;21(4):1467. doi: 10.3390/s21041467.

本文引用的文献

1
BioShaDock: a community driven bioinformatics shared Docker-based tools registry.BioShaDock:一个由社区驱动的基于Docker的生物信息学共享工具注册表。
F1000Res. 2015 Dec 14;4:1443. doi: 10.12688/f1000research.7536.1. eCollection 2015.
2
OrthoANI: An improved algorithm and software for calculating average nucleotide identity.OrthoANI:一种用于计算平均核苷酸一致性的改进算法及软件。
Int J Syst Evol Microbiol. 2016 Feb;66(2):1100-1103. doi: 10.1099/ijsem.0.000760. Epub 2015 Nov 9.
3
Bioboxes: standardised containers for interchangeable bioinformatics software.
生物信息盒:用于可互换生物信息学软件的标准化容器。
Gigascience. 2015 Oct 15;4:47. doi: 10.1186/s13742-015-0087-0. eCollection 2015.
4
Engineering bioinformatics: building reliability, performance and productivity into bioinformatics software.工程生物信息学:将可靠性、性能和生产力融入生物信息学软件。
Bioengineered. 2015;6(4):193-203. doi: 10.1080/21655979.2015.1050162. Epub 2015 May 21.
5
NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins.NCBI参考序列(RefSeq):一个经过整理的基因组、转录本和蛋白质的非冗余序列数据库。
Nucleic Acids Res. 2005 Jan 1;33(Database issue):D501-4. doi: 10.1093/nar/gki025.
6
On the genetic basis of variation and heterogeneity of DNA base composition.论DNA碱基组成的变异与异质性的遗传基础。
Proc Natl Acad Sci U S A. 1962 Apr 15;48(4):582-92. doi: 10.1073/pnas.48.4.582.
7
Basic local alignment search tool.基本局部比对搜索工具
J Mol Biol. 1990 Oct 5;215(3):403-10. doi: 10.1016/S0022-2836(05)80360-2.