• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于 MinHash 的未校正距离向用于系统发育推断的恰当进化距离的转化。

On the transformation of MinHash-based uncorrected distances into proper evolutionary distances for phylogenetic inference.

机构信息

Hub de Bioinformatique et Biostatistique - Département Biologie Computationnelle, Institut Pasteur, USR 3756, CNRS, 75015 Paris, France.

出版信息

F1000Res. 2020 Nov 10;9:1309. doi: 10.12688/f1000research.26930.1. eCollection 2020.

DOI:10.12688/f1000research.26930.1
PMID:33335719
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7713896/
Abstract

Recently developed MinHash-based techniques were proven successful in quickly estimating the level of similarity between large nucleotide sequences. This article discusses their usage and limitations in practice to approximating uncorrected distances between genomes, and transforming these pairwise dissimilarities into proper evolutionary distances. It is notably shown that complex distance measures can be easily approximated using simple transformation formulae based on few parameters. MinHash-based techniques can therefore be very useful for implementing fast yet accurate alignment-free phylogenetic reconstruction procedures from large sets of genomes. This last point of view is assessed with a simulation study using a dedicated bioinformatics tool.

摘要

最近开发的基于 MinHash 的技术已被证明可成功快速估计大型核苷酸序列之间的相似性水平。本文讨论了它们在实践中的用途和局限性,以近似基因组之间未经校正的距离,并将这些成对的不相似性转化为适当的进化距离。值得注意的是,可以使用基于少数参数的简单变换公式轻松近似复杂的距离度量。因此,基于 MinHash 的技术对于从大型基因组集中实现快速而准确的无比对系统发育重建程序非常有用。最后,使用专门的生物信息学工具进行模拟研究来评估这一观点。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/15be1b521674/f1000research-9-29746-g0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/29f655d98d70/f1000research-9-29746-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/949a5df6cc02/f1000research-9-29746-g0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/20c42a6a29d4/f1000research-9-29746-g0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/854a874f67ef/f1000research-9-29746-g0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/15be1b521674/f1000research-9-29746-g0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/29f655d98d70/f1000research-9-29746-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/949a5df6cc02/f1000research-9-29746-g0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/20c42a6a29d4/f1000research-9-29746-g0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/854a874f67ef/f1000research-9-29746-g0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2cb7/7713896/15be1b521674/f1000research-9-29746-g0004.jpg

相似文献

1
On the transformation of MinHash-based uncorrected distances into proper evolutionary distances for phylogenetic inference.基于 MinHash 的未校正距离向用于系统发育推断的恰当进化距离的转化。
F1000Res. 2020 Nov 10;9:1309. doi: 10.12688/f1000research.26930.1. eCollection 2020.
2
Simulation data for the estimation of numerical constants for approximating pairwise evolutionary distances between amino acid sequences.用于估计数值常数的模拟数据,这些常数用于近似氨基酸序列之间的成对进化距离。
Data Brief. 2019 Jul 8;25:104212. doi: 10.1016/j.dib.2019.104212. eCollection 2019 Aug.
3
Phylogenetic Tree Estimation With and Without Alignment: New Distance Methods and Benchmarking.有比对和无比对情况下的系统发育树估计:新的距离方法与基准测试
Syst Biol. 2017 Mar 1;66(2):218-231. doi: 10.1093/sysbio/syw074.
4
Mash: fast genome and metagenome distance estimation using MinHash.Mash:使用MinHash进行快速的基因组和宏基因组距离估计。
Genome Biol. 2016 Jun 20;17(1):132. doi: 10.1186/s13059-016-0997-x.
5
Phylogenetic inference with weighted codon evolutionary distances.基于加权密码子进化距离的系统发育推断。
J Mol Evol. 2009 Apr;68(4):377-92. doi: 10.1007/s00239-009-9212-y. Epub 2009 Mar 24.
6
Deriving confidence intervals for mutation rates across a wide range of evolutionary distances using FracMinHash.使用 FracMinHash 在广泛的进化距离范围内推导突变率的置信区间。
Genome Res. 2023 Jul;33(7):1061-1068. doi: 10.1101/gr.277651.123. Epub 2023 Jun 21.
7
Maximum likelihood estimates of pairwise rearrangement distances.成对重排距离的最大似然估计。
J Theor Biol. 2017 Jun 21;423:31-40. doi: 10.1016/j.jtbi.2017.04.015. Epub 2017 Apr 20.
8
Toward extracting all phylogenetic information from matrices of evolutionary distances.从进化距离矩阵中提取所有系统发育信息。
Science. 2010 Mar 12;327(5971):1376-9. doi: 10.1126/science.1182300.
9
Reconstruction of ancestral protein sequences and its applications.祖先蛋白质序列的重建及其应用。
BMC Evol Biol. 2004 Sep 17;4:33. doi: 10.1186/1471-2148-4-33.
10
A sequence-based evolutionary distance method for Phylogenetic analysis of highly divergent proteins.一种基于序列的进化距离方法,用于高度分化蛋白的系统发育分析。
Sci Rep. 2023 Nov 20;13(1):20304. doi: 10.1038/s41598-023-47496-9.

引用本文的文献

1
Whole-genome based phylogeny and comparative genomics of Sporidiobolales and related taxa of .基于全基因组的掷孢酵母目及相关分类单元的系统发育和比较基因组学 。 你提供的原文似乎不完整,最后的“of.”后面缺少具体内容。
IMA Fungus. 2025 May 13;16:e141626. doi: 10.3897/imafungus.16.141626. eCollection 2025.
2
sp. nov. isolated from the sea cucumber .从海参中分离出的新种。
Int J Syst Evol Microbiol. 2025 Feb;75(2). doi: 10.1099/ijsem.0.006601.
3
Multiple introductions of NRCS-A to the neonatal intensive care unit drive neonatal bloodstream infections: a case-control and environmental genomic survey.

本文引用的文献

1
The number of k-mer matches between two DNA sequences as a function of k and applications to estimate phylogenetic distances.两个 DNA 序列之间 k-mer 匹配的数量作为 k 的函数,以及在估计系统发育距离中的应用。
PLoS One. 2020 Feb 10;15(2):e0228070. doi: 10.1371/journal.pone.0228070. eCollection 2020.
2
Dashing: fast and accurate genomic distances with HyperLogLog.使用 HyperLogLog 实现快速准确的基因组距离计算。
Genome Biol. 2019 Dec 4;20(1):265. doi: 10.1186/s13059-019-1875-0.
3
Phylonium: fast estimation of evolutionary distances from large samples of similar genomes.
多次将NRCS - A引入新生儿重症监护病房引发新生儿血流感染:一项病例对照研究及环境基因组学调查
Microb Genom. 2025 Jan;11(1). doi: 10.1099/mgen.0.001340.
4
Description of Cohnella rhizoplanae sp. nov., isolated from the root surface of soybean (Glycine max).从大豆(Glycine max)根际分离的根际科恩氏菌新种的描述。
Antonie Van Leeuwenhoek. 2024 Dec 24;118(2):41. doi: 10.1007/s10482-024-02051-y.
5
Rathayibacter tanaceti sp. nov., a Novel Actinobacterium from Tanacetum vulgare Infested by Foliar Nematode Aphelenchoides sp.菊蒿叶甲刺菌,一种新型放线菌,来自受叶甲刺线虫侵害的普通菊花
Curr Microbiol. 2024 Mar 27;81(5):123. doi: 10.1007/s00284-024-03643-7.
6
Mottle: Accurate pairwise substitution distance at high divergence through the exploitation of short-read mappers and gradient descent.斑驳:通过利用短读映射器和梯度下降实现高分歧下精确的双序列替换距离。
PLoS One. 2024 Mar 21;19(3):e0298834. doi: 10.1371/journal.pone.0298834. eCollection 2024.
7
10.1.1, a Producer of Antimicrobial Agents.10.1.1,抗菌剂生产商。
Microorganisms. 2023 Nov 24;11(12):2853. doi: 10.3390/microorganisms11122853.
8
Genomic sketching with multiplicities and locality-sensitive hashing using Dashing 2.使用 Dashing 2 进行多重性和位置敏感哈希的基因组草图绘制。
Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123. Epub 2023 Jul 6.
9
Paenibacillus plantiphilus sp. nov. from the plant environment of Zea mays.来自玉米植物环境的植物芽胞杆菌新种。
Antonie Van Leeuwenhoek. 2023 Sep;116(9):883-892. doi: 10.1007/s10482-023-01852-x. Epub 2023 Jun 20.
10
RabbitTClust: enabling fast clustering analysis of millions of bacteria genomes with MinHash sketches.RabbitTClust:使用 MinHash 草图实现对数百万个细菌基因组的快速聚类分析。
Genome Biol. 2023 May 17;24(1):121. doi: 10.1186/s13059-023-02961-6.
Phylonium:从大量相似基因组中快速估计进化距离。
Bioinformatics. 2020 Apr 1;36(7):2040-2046. doi: 10.1093/bioinformatics/btz903.
4
When the levee breaks: a practical guide to sketching algorithms for processing the flood of genomic data.决堤之时:算法速写实用指南,助你应对基因组洪流。
Genome Biol. 2019 Sep 13;20(1):199. doi: 10.1186/s13059-019-1809-x.
5
Simulation data for the estimation of numerical constants for approximating pairwise evolutionary distances between amino acid sequences.用于估计数值常数的模拟数据,这些常数用于近似氨基酸序列之间的成对进化距离。
Data Brief. 2019 Jul 8;25:104212. doi: 10.1016/j.dib.2019.104212. eCollection 2019 Aug.
6
Benchmarking of alignment-free sequence comparison methods.无比对信息的序列比较方法的基准测试。
Genome Biol. 2019 Jul 25;20(1):144. doi: 10.1186/s13059-019-1755-7.
7
Whole genome sequence of Vibrio cholerae directly from dried spotted filter paper.从干燥的点样滤纸直接提取霍乱弧菌的全基因组序列。
PLoS Negl Trop Dis. 2019 May 30;13(5):e0007330. doi: 10.1371/journal.pntd.0007330. eCollection 2019 May.
8
hicap: Serotyping of the Haemophilus influenzae Capsule Locus.hicap:流感嗜血杆菌荚膜基因座的血清分型。
J Clin Microbiol. 2019 May 24;57(6). doi: 10.1128/JCM.00190-19. Print 2019 Jun.
9
Molecular Characterization of Harboring the /B7 Gene.携带 /B7 基因的分子特征。
Foodborne Pathog Dis. 2019 Jun;16(6):428-433. doi: 10.1089/fpd.2018.2600. Epub 2019 Mar 30.
10
Skmer: assembly-free and alignment-free sample identification using genome skims.Skmer:使用基因组草图进行无组装和无比对的样本识别。
Genome Biol. 2019 Feb 13;20(1):34. doi: 10.1186/s13059-019-1632-4.