Suppr超能文献

利用压缩数据结构进行高效的从头基因组组装。

Efficient de novo assembly of large genomes using compressed data structures.

机构信息

Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, United Kingdom.

出版信息

Genome Res. 2012 Mar;22(3):549-56. doi: 10.1101/gr.126953.111. Epub 2011 Dec 7.

Abstract

De novo genome sequence assembly is important both to generate new sequence assemblies for previously uncharacterized genomes and to identify the genome sequence of individuals in a reference-unbiased way. We present memory efficient data structures and algorithms for assembly using the FM-index derived from the compressed Burrows-Wheeler transform, and a new assembler based on these called SGA (String Graph Assembler). We describe algorithms to error-correct, assemble, and scaffold large sets of sequence data. SGA uses the overlap-based string graph model of assembly, unlike most de novo assemblers that rely on de Bruijn graphs, and is simply parallelizable. We demonstrate the error correction and assembly performance of SGA on 1.2 billion sequence reads from a human genome, which we are able to assemble using 54 GB of memory. The resulting contigs are highly accurate and contiguous, while covering 95% of the reference genome (excluding contigs <200 bp in length). Because of the low memory requirements and parallelization without requiring inter-process communication, SGA provides the first practical assembler to our knowledge for a mammalian-sized genome on a low-end computing cluster.

摘要

从头基因组序列组装对于生成以前未表征的基因组的新序列组装以及以无参考偏向的方式识别个体的基因组序列都很重要。我们提出了使用从压缩的 Burrows-Wheeler 变换得出的 FM-index 进行组装的内存高效数据结构和算法,以及一个基于这些算法的新的组装器,称为 SGA(字符串图组装器)。我们描述了用于纠错、组装和支架大量序列数据的算法。SGA 使用基于重叠的字符串图组装模型,与大多数依赖于 de Bruijn 图的从头组装器不同,并且可以简单地并行化。我们在人类基因组的 12 亿个序列读取上展示了 SGA 的纠错和组装性能,我们能够使用 54GB 的内存进行组装。得到的 contigs 高度准确且连续,同时覆盖了参考基因组的 95%(不包括长度小于 200bp 的 contigs)。由于内存需求低,并且无需进程间通信即可进行并行化,因此 SGA 是我们所知的第一个实用的组装器,可用于低端计算集群上的哺乳动物大小的基因组。

相似文献

2
FSG: Fast String Graph Construction for De Novo Assembly.FSG:用于从头组装的快速字符串图构建
J Comput Biol. 2017 Oct;24(10):953-968. doi: 10.1089/cmb.2017.0089. Epub 2017 Jul 17.
4
5
FastEtch: A Fast Sketch-Based Assembler for Genomes.FastEtch:一种基于草图的快速基因组装配器。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Jul-Aug;16(4):1091-1106. doi: 10.1109/TCBB.2017.2737999. Epub 2017 Sep 11.
9
Integrating long-range connectivity information into de Bruijn graphs.将长程连接信息整合到 de Bruijn 图中。
Bioinformatics. 2018 Aug 1;34(15):2556-2565. doi: 10.1093/bioinformatics/bty157.

引用本文的文献

8
BWT construction and search at the terabase scale.万亿碱基规模下的BWT构建与搜索。
Bioinformatics. 2024 Nov 28;40(12). doi: 10.1093/bioinformatics/btae717.

本文引用的文献

3
Succinct data structures for assembling large genomes.用于组装大型基因组的简明数据结构。
Bioinformatics. 2011 Feb 15;27(4):479-86. doi: 10.1093/bioinformatics/btq697. Epub 2011 Jan 17.
5
HiTEC: accurate error correction in high-throughput sequencing data.HiTEC:高通量测序数据中的精确错误校正。
Bioinformatics. 2011 Feb 1;27(3):295-302. doi: 10.1093/bioinformatics/btq653. Epub 2010 Nov 26.
6
Quake: quality-aware detection and correction of sequencing errors.Quake:测序错误的质量感知检测和校正。
Genome Biol. 2010;11(11):R116. doi: 10.1186/gb-2010-11-11-r116. Epub 2010 Nov 29.
9
10
The case for cloud computing in genome informatics.云计算在基因组信息学中的应用。
Genome Biol. 2010;11(5):207. doi: 10.1186/gb-2010-11-5-207. Epub 2010 May 5.

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验