• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用有色 de Bruijn 图进行大规模人群中非参考序列变异的检测。

Population-scale detection of non-reference sequence variants using colored de Bruijn graphs.

机构信息

Berlin Institute of Health at Charité - Universitätsmedizin Berlin, Charitéplatz 1, 10117 Berlin, Germany.

Google Inc., 8002 Zürich, Switzerland.

出版信息

Bioinformatics. 2022 Jan 12;38(3):604-611. doi: 10.1093/bioinformatics/btab749.

DOI:10.1093/bioinformatics/btab749
PMID:34726732
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8756200/
Abstract

MOTIVATION

With the increasing throughput of sequencing technologies, structural variant (SV) detection has become possible across tens of thousands of genomes. Non-reference sequence (NRS) variants have drawn less attention compared with other types of SVs due to the computational complexity of detecting them. When using short-read data, the detection of NRS variants inevitably involves a de novo assembly which requires high-quality sequence data at high coverage. Previous studies have demonstrated how sequence data of multiple genomes can be combined for the reliable detection of NRS variants. However, the algorithms proposed in these studies have limited scalability to larger sets of genomes.

RESULTS

We introduce PopIns2, a tool to discover and characterize NRS variants in many genomes, which scales to considerably larger numbers of genomes than its predecessor PopIns. In this article, we briefly outline the PopIns2 workflow and highlight our novel algorithmic contributions. We developed an entirely new approach for merging contig assemblies of unaligned reads from many genomes into a single set of NRS using a colored de Bruijn graph. Our tests on simulated data indicate that the new merging algorithm ranks among the best approaches in terms of quality and reliability and that PopIns2 shows the best precision for a growing number of genomes processed. Results on the Polaris Diversity Cohort and a set of 1000 Icelandic human genomes demonstrate unmatched scalability for the application on population-scale datasets.

AVAILABILITY AND IMPLEMENTATION

The source code of PopIns2 is available from https://github.com/kehrlab/PopIns2.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

随着测序技术通量的不断提高,跨数万个人类基因组进行结构变异 (SV) 检测已成为可能。与其他类型的 SV 相比,非参考序列 (NRS) 变体由于检测它们的计算复杂性而受到较少关注。在使用短读长数据时,NRS 变体的检测不可避免地涉及从头组装,这需要高质量的高覆盖率序列数据。以前的研究已经证明了如何组合多个基因组的序列数据来可靠地检测 NRS 变体。然而,这些研究中提出的算法对于更大数量的基因组的扩展性有限。

结果

我们引入了 PopIns2,这是一种用于在许多基因组中发现和表征 NRS 变体的工具,其规模比其前身 PopIns 要大得多。在本文中,我们简要概述了 PopIns2 的工作流程,并强调了我们新的算法贡献。我们开发了一种全新的方法,使用彩色 de Bruijn 图将来自许多基因组的未对齐读长的 contig 组装合并为一组 NRS。我们对模拟数据的测试表明,新的合并算法在质量和可靠性方面属于最佳方法之一,并且随着处理的基因组数量的增加,PopIns2 显示出最佳的精度。在 Polaris 多样性队列和一组 1000 个冰岛人类基因组上的结果表明,该应用程序在处理大规模人群数据集方面具有无与伦比的可扩展性。

可用性和实现

PopIns2 的源代码可从 https://github.com/kehrlab/PopIns2 获得。

补充信息

补充数据可在 Bioinformatics 在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6168/8756200/31904c84ecc7/btab749f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6168/8756200/36a043b93049/btab749f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6168/8756200/31904c84ecc7/btab749f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6168/8756200/36a043b93049/btab749f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6168/8756200/31904c84ecc7/btab749f2.jpg

相似文献

1
Population-scale detection of non-reference sequence variants using colored de Bruijn graphs.使用有色 de Bruijn 图进行大规模人群中非参考序列变异的检测。
Bioinformatics. 2022 Jan 12;38(3):604-611. doi: 10.1093/bioinformatics/btab749.
2
PopIns: population-scale detection of novel sequence insertions.PopIns:新型序列插入的大规模人群检测。
Bioinformatics. 2016 Apr 1;32(7):961-7. doi: 10.1093/bioinformatics/btv273. Epub 2015 Apr 28.
3
Integrating long-range connectivity information into de Bruijn graphs.将长程连接信息整合到 de Bruijn 图中。
Bioinformatics. 2018 Aug 1;34(15):2556-2565. doi: 10.1093/bioinformatics/bty157.
4
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
5
Cuttlefish: fast, parallel and low-memory compaction of de Bruijn graphs from large-scale genome collections.乌贼算法:从大规模基因组集合中快速、并行且低内存消耗的 de Bruijn 图压缩。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i177-i186. doi: 10.1093/bioinformatics/btab309.
6
GGTyper: genotyping complex structural variants using short-read sequencing data.GGTyper:使用短读测序数据进行基因分型复杂结构变异。
Bioinformatics. 2024 Sep 1;40(Suppl 2):ii11-ii19. doi: 10.1093/bioinformatics/btae391.
7
Building large updatable colored de Bruijn graphs via merging.通过合并构建大型可更新彩色 de Bruijn 图。
Bioinformatics. 2019 Jul 15;35(14):i51-i60. doi: 10.1093/bioinformatics/btz350.
8
Succinct colored de Bruijn graphs.简明彩色 de Bruijn 图。
Bioinformatics. 2017 Oct 15;33(20):3181-3187. doi: 10.1093/bioinformatics/btx067.
9
Benchmarking of de novo assembly algorithms for Nanopore data reveals optimal performance of OLC approaches.用于纳米孔数据的从头组装算法基准测试揭示了重叠布局一致(OLC)方法的最佳性能。
BMC Genomics. 2016 Aug 22;17 Suppl 7(Suppl 7):507. doi: 10.1186/s12864-016-2895-8.
10
RResolver: efficient short-read repeat resolution within ABySS.RResolver:AByss 内高效的短读重复序列解决工具。
BMC Bioinformatics. 2022 Jun 21;23(1):246. doi: 10.1186/s12859-022-04790-z.

引用本文的文献

1
Assembling unmapped reads reveals hidden variation in South Asian genomes.组装未映射的 reads 揭示了南亚基因组中隐藏的变异。
bioRxiv. 2025 May 14:2025.05.14.653340. doi: 10.1101/2025.05.14.653340.
2
Constructing a draft Indian cattle pangenome using short-read sequencing.利用短读长测序构建印度牛泛基因组草图。
Commun Biol. 2025 Apr 13;8(1):605. doi: 10.1038/s42003-025-07978-0.
3
Near telomere-to-telomere genome assembly of Mongolian cattle: implications for population genetic variation and beef quality.蒙古牛近端粒到端粒的基因组组装:对群体遗传变异和牛肉品质的影响
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giae099.
4
Label-guided seed-chain-extend alignment on annotated De Bruijn graphs.带标签的种子链扩展对齐标注的 De Bruijn 图。
Bioinformatics. 2024 Jun 28;40(Suppl 1):i337-i346. doi: 10.1093/bioinformatics/btae226.
5
LRTK: a platform agnostic toolkit for linked-read analysis of both human genome and metagenome.LRTK:一个与平台无关的工具包,用于人类基因组和宏基因组的连锁读长分析。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giae028.
6
Prokrustean Graph: A substring index for rapid k-mer size analysis.普罗克汝斯忒斯图:一种用于快速k-mer大小分析的子串索引。
bioRxiv. 2024 Dec 20:2023.11.21.568151. doi: 10.1101/2023.11.21.568151.
7
INSurVeyor: improving insertion calling from short read sequencing data.INSurVeyor:从短读测序数据中提高插入片段调用。
Nat Commun. 2023 Jun 5;14(1):3243. doi: 10.1038/s41467-023-38870-2.
8
Efficient detection and assembly of non-reference DNA sequences with synthetic long reads.使用合成长读长进行非参考 DNA 序列的高效检测和组装。
Nucleic Acids Res. 2022 Oct 14;50(18):e108. doi: 10.1093/nar/gkac653.