• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

兔 mash:加速基于哈希的现代多核架构上的基因组分析。

RabbitMash: accelerating hash-based genome analysis on modern multi-core architectures.

机构信息

School of Software, Shandong University, Jinan 250101, China.

Shenzhen Research Institute of Shandong University, Shenzhen 518063, China.

出版信息

Bioinformatics. 2021 May 5;37(6):873-875. doi: 10.1093/bioinformatics/btaa754.

DOI:10.1093/bioinformatics/btaa754
PMID:32845281
Abstract

MOTIVATION

Mash is a popular hash-based genome analysis toolkit with applications to important downstream analyses tasks such as clustering and assembly. However, Mash is currently not able to fully exploit the capabilities of modern multi-core architectures, which in turn leads to high runtimes for large-scale genomic datasets.

RESULTS

We present RabbitMash, an efficient highly optimized implementation of Mash which can take full advantage of modern hardware including multi-threading, vectorization and fast I/O. We show that our approach achieves speedups of at least 1.3, 9.8, 8.5 and 4.4 compared to Mash for the operations sketch, dist, triangle and screen, respectively. Furthermore, RabbitMash is able to compute the all-versus-all distances of 100 321 genomes in <5 min on a 40-core workstation while Mash requires over 40 min.

AVAILABILITY AND IMPLEMENTATION

RabbitMash is available at https://github.com/ZekunYin/RabbitMash.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

Mash 是一个流行的基于哈希的基因组分析工具包,可应用于聚类和组装等重要的下游分析任务。然而,Mash 目前还不能充分利用现代多核架构的功能,这反过来又导致大规模基因组数据集的运行时间很长。

结果

我们提出了 RabbitMash,这是一种高效的 Mash 高度优化的实现,可以充分利用现代硬件,包括多线程、向量化和快速 I/O。我们表明,与 Mash 相比,我们的方法在操作草图、距离、三角形和屏幕方面分别实现了至少 1.3、9.8、8.5 和 4.4 的加速。此外,RabbitMash 能够在一个 40 核工作站上计算 100321 个基因组的全对全距离,耗时不到 5 分钟,而 Mash 则需要 40 多分钟。

可用性和实现

RabbitMash 可在 https://github.com/ZekunYin/RabbitMash 获得。

补充信息

补充数据可在“Bioinformatics”在线获得。

相似文献

1
RabbitMash: accelerating hash-based genome analysis on modern multi-core architectures.兔 mash:加速基于哈希的现代多核架构上的基因组分析。
Bioinformatics. 2021 May 5;37(6):873-875. doi: 10.1093/bioinformatics/btaa754.
2
RabbitQC: high-speed scalable quality control for sequencing data.兔 QC:测序数据的高速可扩展质量控制。
Bioinformatics. 2021 May 1;37(4):573-574. doi: 10.1093/bioinformatics/btaa719.
3
RabbitKSSD: accelerating genome distance estimation on modern multi-core architectures.兔斯基 KSSD:在现代多核架构上加速基因组距离估计。
Bioinformatics. 2023 Nov 1;39(11). doi: 10.1093/bioinformatics/btad695.
4
RabbitV: fast detection of viruses and microorganisms in sequencing data on multi-core architectures.兔维:多核架构上测序数据中病毒和微生物的快速检测。
Bioinformatics. 2022 May 13;38(10):2932-2933. doi: 10.1093/bioinformatics/btac187.
5
BGSA: a bit-parallel global sequence alignment toolkit for multi-core and many-core architectures.BGSA:用于多核和众核架构的位并行全局序列比对工具包。
Bioinformatics. 2019 Jul 1;35(13):2306-2308. doi: 10.1093/bioinformatics/bty930.
6
RabbitFX: Efficient Framework for FASTA/Q File Parsing on Modern Multi-Core Platforms.RabbitFX:适用于现代多核平台的 FASTA/Q 文件解析的高效框架。
IEEE/ACM Trans Comput Biol Bioinform. 2023 May-Jun;20(3):2341-2348. doi: 10.1109/TCBB.2022.3219114. Epub 2023 Jun 5.
7
Kmer-db: instant evolutionary distance estimation.Kmer-db:即时进化距离估计。
Bioinformatics. 2019 Jan 1;35(1):133-136. doi: 10.1093/bioinformatics/bty610.
8
ASTRAL-MP: scaling ASTRAL to very large datasets using randomization and parallelization.ASTRAL-MP:通过随机化和并行化扩展 ASTRAL 以适应非常大的数据集。
Bioinformatics. 2019 Oct 15;35(20):3961-3969. doi: 10.1093/bioinformatics/btz211.
9
Phylonium: fast estimation of evolutionary distances from large samples of similar genomes.Phylonium:从大量相似基因组中快速估计进化距离。
Bioinformatics. 2020 Apr 1;36(7):2040-2046. doi: 10.1093/bioinformatics/btz903.
10
Very Fast Tree: speeding up the estimation of phylogenies for large alignments through parallelization and vectorization strategies.非常快速树:通过并行化和向量化策略加速大型比对的系统发生树估计。
Bioinformatics. 2020 Nov 1;36(17):4658-4659. doi: 10.1093/bioinformatics/btaa582.

引用本文的文献

1
RabbitSketch: a high-performance sketching library for genome analysis.RabbitSketch:用于基因组分析的高性能草图绘制库。
Bioinformatics. 2025 May 6;41(5). doi: 10.1093/bioinformatics/btaf249.
2
RabbitTClust: enabling fast clustering analysis of millions of bacteria genomes with MinHash sketches.RabbitTClust:使用 MinHash 草图实现对数百万个细菌基因组的快速聚类分析。
Genome Biol. 2023 May 17;24(1):121. doi: 10.1186/s13059-023-02961-6.