• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

相似文献

1
Genomic sketching with multiplicities and locality-sensitive hashing using Dashing 2.使用 Dashing 2 进行多重性和位置敏感哈希的基因组草图绘制。
Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123. Epub 2023 Jul 6.
2
Dashing: fast and accurate genomic distances with HyperLogLog.使用 HyperLogLog 实现快速准确的基因组距离计算。
Genome Biol. 2019 Dec 4;20(1):265. doi: 10.1186/s13059-019-1875-0.
3
Sketching Methods with Small Window Guarantee Using Minimum Decycling Sets.使用最小去环集保证小窗口的草图方法。
J Comput Biol. 2024 Jul;31(7):597-615. doi: 10.1089/cmb.2024.0544. Epub 2024 Jul 9.
4
Set-Min Sketch: A Probabilistic Map for Power-Law Distributions with Application to -Mer Annotation.集最小草图:用于幂律分布的概率图及其在 -Mer 注释中的应用。
J Comput Biol. 2022 Feb;29(2):140-154. doi: 10.1089/cmb.2021.0429. Epub 2022 Jan 18.
5
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
6
Creating and Using Minimizer Sketches in Computational Genomics.在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
7
GSearch: ultra-fast and scalable genome search by combining K-mer hashing with hierarchical navigable small world graphs.GSearch:通过组合 K -mer 哈希和分层可导航小世界图实现超快速和可扩展的基因组搜索。
Nucleic Acids Res. 2024 Sep 9;52(16):e74. doi: 10.1093/nar/gkae609.
8
HyperGen: Compact and Efficient Genome Sketching using Hyperdimensional Vectors.HyperGen:使用超维向量进行紧凑且高效的基因组草图绘制
Bioinformatics. 2024 Jul 16;40(7). doi: 10.1093/bioinformatics/btae452.
9
Sketching methods with small window guarantee using minimum decycling sets.使用最小去环集保证小窗口的绘制方法。
ArXiv. 2023 Nov 6:arXiv:2311.03592v1.
10
On the Maximal Independent Sets of -mers with the Edit Distance.关于具有编辑距离的 - 聚体的最大独立集
ACM BCB. 2023 Sep;2023. doi: 10.1145/3584371.3612982. Epub 2023 Oct 4.

引用本文的文献

1
Mumemto: efficient maximal matching across pangenomes.Mumemto:跨泛基因组的高效最大匹配
Genome Biol. 2025 Jun 17;26(1):169. doi: 10.1186/s13059-025-03644-0.
2
EvANI benchmarking workflow for evolutionary distance estimation.用于进化距离估计的EvANI基准测试工作流程。
Brief Bioinform. 2025 May 1;26(3). doi: 10.1093/bib/bbaf267.
3
Longitudinal profiling of low-abundance strains in microbiomes with ChronoStrain.使用ChronoStrain对微生物群落中低丰度菌株进行纵向分析。
Nat Microbiol. 2025 May;10(5):1184-1197. doi: 10.1038/s41564-025-01983-z. Epub 2025 May 6.
4
RabbitSketch: a high-performance sketching library for genome analysis.RabbitSketch:用于基因组分析的高性能草图绘制库。
Bioinformatics. 2025 May 6;41(5). doi: 10.1093/bioinformatics/btaf249.
5
EvANI benchmarking workflow for evolutionary distance estimation.用于进化距离估计的EvANI基准测试工作流程。
bioRxiv. 2025 Feb 23:2025.02.23.639716. doi: 10.1101/2025.02.23.639716.
6
Fractional hitting sets for efficient multiset sketching.用于高效多重集草图绘制的分数击中集
Algorithms Mol Biol. 2025 Feb 8;20(1):1. doi: 10.1186/s13015-024-00268-0.
7
-mer approaches for biodiversity genomics.用于生物多样性基因组学的-mer方法。
Genome Res. 2025 Feb 14;35(2):219-230. doi: 10.1101/gr.279452.124.
8
Mumemto: efficient maximal matching across pangenomes.Mumemto:跨全基因组的高效最大匹配
bioRxiv. 2025 Jan 5:2025.01.05.631388. doi: 10.1101/2025.01.05.631388.
9
Combining DNA and protein alignments to improve genome annotation with LiftOn.结合DNA和蛋白质比对,利用LiftOn改进基因组注释。
Genome Res. 2025 Feb 14;35(2):311-325. doi: 10.1101/gr.279620.124.
10
A single amplified genome catalog reveals the dynamics of mobilome and resistome in the human microbiome.单扩增基因组目录揭示了人类微生物组中移动元件和抗性基因库的动态变化。
Microbiome. 2024 Oct 2;12(1):188. doi: 10.1186/s40168-024-01903-z.

本文引用的文献

1
HyperMinHash: MinHash in LogLog space.超最小哈希:对数对数空间中的最小哈希。
IEEE Trans Knowl Data Eng. 2022 Jan;34(1):328-339. doi: 10.1109/tkde.2020.2981311. Epub 2020 Mar 17.
2
Fast and robust metagenomic sequence comparison through sparse chaining with skani.通过使用 skani 进行稀疏链接实现快速稳健的宏基因组序列比较。
Nat Methods. 2023 Nov;20(11):1661-1665. doi: 10.1038/s41592-023-02018-3. Epub 2023 Sep 21.
3
On the transformation of MinHash-based uncorrected distances into proper evolutionary distances for phylogenetic inference.基于 MinHash 的未校正距离向用于系统发育推断的恰当进化距离的转化。
F1000Res. 2020 Nov 10;9:1309. doi: 10.12688/f1000research.26930.1. eCollection 2020.
4
Towards Genomic Criteria for Delineating Fungal Species.迈向界定真菌物种的基因组标准
J Fungi (Basel). 2020 Oct 24;6(4):246. doi: 10.3390/jof6040246.
5
Metalign: efficient alignment-based metagenomic profiling via containment min hash.Metalign:基于包含最小哈希的高效基于比对的宏基因组分析。
Genome Biol. 2020 Sep 10;21(1):242. doi: 10.1186/s13059-020-02159-0.
6
Weighted minimizer sampling improves long read mapping.加权最小化抽样提高长读测序数据的比对。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i111-i118. doi: 10.1093/bioinformatics/btaa435.
7
Dashing: fast and accurate genomic distances with HyperLogLog.使用 HyperLogLog 实现快速准确的基因组距离计算。
Genome Biol. 2019 Dec 4;20(1):265. doi: 10.1186/s13059-019-1875-0.
8
Mash Screen: high-throughput sequence containment estimation for genome discovery.Mash 屏幕:用于基因组发现的高通量序列包含度估计。
Genome Biol. 2019 Nov 5;20(1):232. doi: 10.1186/s13059-019-1841-x.
9
Locality-sensitive hashing for the edit distance.基于编辑距离的位置敏感哈希
Bioinformatics. 2019 Jul 15;35(14):i127-i135. doi: 10.1093/bioinformatics/btz354.
10
Strain-level metagenomic assignment and compositional estimation for long reads with MetaMaps.使用 MetaMaps 对长读进行菌株水平宏基因组分配和组成估计。
Nat Commun. 2019 Jul 11;10(1):3066. doi: 10.1038/s41467-019-10934-2.

使用 Dashing 2 进行多重性和位置敏感哈希的基因组草图绘制。

Genomic sketching with multiplicities and locality-sensitive hashing using Dashing 2.

机构信息

Department of Computer Science, Johns Hopkins University, Baltimore, Maryland 21218-2683, USA.

Department of Computer Science, Johns Hopkins University, Baltimore, Maryland 21218-2683, USA

出版信息

Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123. Epub 2023 Jul 6.

DOI:10.1101/gr.277655.123
PMID:37414575
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10538361/
Abstract

A genomic sketch is a small, probabilistic representation of the set of k-mers in a sequencing data set. Sketches are building blocks for large-scale analyses that consider similarities between many pairs of sequences or sequence collections. Although existing tools can easily compare tens of thousands of genomes, data sets can reach millions of sequences and beyond. Popular tools also fail to consider k-mer multiplicities, making them less applicable in quantitative settings. Here, we describe a method called Dashing 2 that builds on the SetSketch data structure. SetSketch is related to HyperLogLog (HLL) but discards use of leading zero count in favor of a truncated logarithm of adjustable base. Unlike HLL, SetSketch can perform multiplicity-aware sketching when combined with the ProbMinHash method. Dashing 2 integrates locality-sensitive hashing to scale all-pairs comparisons to millions of sequences. It achieves superior similarity estimates for the Jaccard coefficient and average nucleotide identity compared with the original Dashing, but in much less time while using the same-sized sketch. Dashing 2 is a free, open source software.

摘要

基因组草图是测序数据集的 k-mer 集合的小概率表示形式。草图是大规模分析的构建块,这些分析考虑了许多序列对或序列集合之间的相似性。尽管现有工具可以轻松比较数万个基因组,但数据集可能会达到数百万个序列甚至更多。流行的工具也未能考虑 k-mer 的多重性,因此在定量环境中不太适用。在这里,我们描述了一种称为 Dashing 2 的方法,它建立在 SetSketch 数据结构之上。SetSketch 与 HyperLogLog (HLL) 相关,但摒弃了使用前导零计数,转而采用可调基数的截断对数。与 HLL 不同,当与 ProbMinHash 方法结合使用时,SetSketch 可以进行多重感知草图绘制。Dashing 2 集成了局部敏感哈希算法,可将所有对比较扩展到数百万个序列。与原始 Dashing 相比,它实现了 Jaccard 系数和平均核苷酸同一性的优越相似性估计,但时间更短,同时使用的草图大小相同。Dashing 2 是一款免费的开源软件。