• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

QUARTIC:用于高通量测序数据处理的快速并行算法。

QUARTIC: QUick pArallel algoRithms for high-Throughput sequencIng data proCessing.

机构信息

Institut Curie, Paris, F-75005, France.

U900, Inserm, Paris, F-75005, France.

出版信息

F1000Res. 2020 Apr 6;9:240. doi: 10.12688/f1000research.22954.3. eCollection 2020.

DOI:10.12688/f1000research.22954.3
PMID:32913637
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7429925/
Abstract

Life science has entered the so-called 'big data era' where biologists, clinicians and bioinformaticians are overwhelmed with high-throughput sequencing data. While they offer new insights to decipher the genome structure they also raise major challenges to use them for daily clinical practice care and diagnosis purposes as they are bigger and bigger. Therefore, we implemented a software to reduce the time to delivery for the alignment and the sorting of high-throughput sequencing data.  Our solution is implemented using Message Passing Interface and is intended for high-performance computing architecture. The software scales linearly with respect to the size of the data and ensures a total reproducibility with the traditional tools. For example, a 300X whole genome can be aligned and sorted within less than 9 hours with 128 cores. The software offers significant speed-up using multi-cores and multi-nodes parallelization.

摘要

生命科学已经进入了所谓的“大数据时代”,生物学家、临床医生和生物信息学家都被高通量测序数据所淹没。虽然它们为破译基因组结构提供了新的见解,但由于数据越来越大,它们也给日常临床实践护理和诊断带来了重大挑战。因此,我们开发了一种软件来缩短高通量测序数据对齐和排序的交付时间。我们的解决方案使用消息传递接口实现,旨在用于高性能计算架构。该软件在数据规模上呈线性扩展,并确保与传统工具具有完全的可重复性。例如,使用 128 个核可以在不到 9 小时的时间内对齐和排序 300X 的全基因组。该软件通过多核和多节点并行化实现了显著的加速。

相似文献

1
QUARTIC: QUick pArallel algoRithms for high-Throughput sequencIng data proCessing.QUARTIC:用于高通量测序数据处理的快速并行算法。
F1000Res. 2020 Apr 6;9:240. doi: 10.12688/f1000research.22954.3. eCollection 2020.
2
parSMURF, a high-performance computing tool for the genome-wide detection of pathogenic variants.parSMURF,一种用于全基因组致病性变异检测的高性能计算工具。
Gigascience. 2020 May 1;9(5). doi: 10.1093/gigascience/giaa052.
3
Towards a HPC-oriented parallel implementation of a learning algorithm for bioinformatics applications.面向高性能计算的生物信息学应用学习算法并行实现
BMC Bioinformatics. 2014;15 Suppl 5(Suppl 5):S2. doi: 10.1186/1471-2105-15-S5-S2. Epub 2014 May 6.
4
New TNT routines for parallel computing with MPI.用于使用MPI进行并行计算的新TNT例程。
Mol Phylogenet Evol. 2023 Jan;178:107643. doi: 10.1016/j.ympev.2022.107643. Epub 2022 Oct 8.
5
Parallel computing for genome sequence processing.基因组序列处理的并行计算。
Brief Bioinform. 2021 Sep 2;22(5). doi: 10.1093/bib/bbab070.
6
Big Data in metagenomics: Apache Spark vs MPI.宏基因组学中的大数据:Apache Spark 与 MPI。
PLoS One. 2020 Oct 6;15(10):e0239741. doi: 10.1371/journal.pone.0239741. eCollection 2020.
7
Closha: bioinformatics workflow system for the analysis of massive sequencing data.Closha:用于大规模测序数据分析的生物信息学工作流系统。
BMC Bioinformatics. 2018 Feb 19;19(Suppl 1):43. doi: 10.1186/s12859-018-2019-3.
8
Computational Strategies for Scalable Genomics Analysis.可扩展基因组分析的计算策略。
Genes (Basel). 2019 Dec 6;10(12):1017. doi: 10.3390/genes10121017.
9
Next-generation sequencing: big data meets high performance computing.下一代测序:大数据邂逅高性能计算。
Drug Discov Today. 2017 Apr;22(4):712-717. doi: 10.1016/j.drudis.2017.01.014. Epub 2017 Feb 2.
10
Multi-threading the generation of Burrows-Wheeler Alignment.多线程生成布罗-惠勒比对。
Genet Mol Res. 2016 May 23;15(2):gmr8650. doi: 10.4238/gmr.15028650.

引用本文的文献

1
Geniac: Automatic Configuration GENerator and Installer for nextflow pipelines.Geniac:用于Nextflow管道的自动配置生成器与安装程序。
Open Res Eur. 2022 Feb 21;1:76. doi: 10.12688/openreseurope.13861.2. eCollection 2021.