• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

k-典范空间:使用互补序列进行草图绘制。

k-nonical space: sketching with reverse complements.

机构信息

Ray and Stephanie Lane Computational Biology Department, Carnegie Mellon University, Pittsburgh, PA 15213, United States.

出版信息

Bioinformatics. 2024 Nov 1;40(11). doi: 10.1093/bioinformatics/btae629.

DOI:10.1093/bioinformatics/btae629
PMID:39432565
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11549021/
Abstract

MOTIVATION

Sequences equivalent to their reverse complements (i.e. double-stranded DNA) have no analogue in text analysis and non-biological string algorithms. Despite this striking difference, algorithms designed for computational biology (e.g. sketching algorithms) are designed and tested in the same way as classical string algorithms. Then, as a post-processing step, these algorithms are adapted to work with genomic sequences by folding a k-mer and its reverse complement into a single sequence: The canonical representation (k-nonical space).

RESULTS

The effect of using the canonical representation with sketching methods is understudied and not understood. As a first step, we use context-free sketching methods to illustrate the potentially detrimental effects of using canonical k-mers with string algorithms not designed to accommodate for them. In particular, we show that large stretches of the genome ("sketching deserts") are undersampled or entirely skipped by context-free sketching methods, effectively making these genomic regions invisible to subsequent algorithms using these sketches. We provide empirical data showing these effects and develop a theoretical framework explaining the appearance of sketching deserts. Finally, we propose two schemes to accommodate for these effects: (i) a new procedure that adapts existing sketching methods to k-nonical space and (ii) an optimization procedure to directly design new sketching methods for k-nonical space.

AVAILABILITY AND IMPLEMENTATION

The code used in this analysis is available under a permissive license at https://github.com/Kingsford-Group/mdsscope.

摘要

动机

与它们的反向互补序列(即双链 DNA)等效的序列在文本分析和非生物字符串算法中没有类似物。尽管存在这种明显的差异,但为计算生物学设计的算法(例如草图算法)是以与经典字符串算法相同的方式设计和测试的。然后,作为后处理步骤,这些算法通过将一个 k-mer 及其反向互补折叠成单个序列来适应基因组序列的工作:规范表示(k-规范空间)。

结果

使用草图方法的规范表示的效果研究不足,也不被理解。作为第一步,我们使用上下文无关的草图方法来说明使用非专为其设计的规范 k-mer 对字符串算法的潜在不利影响。具体来说,我们表明,基因组的大片段(“草图沙漠”)被上下文无关的草图方法抽样不足或完全跳过,实际上使这些基因组区域对随后使用这些草图的算法不可见。我们提供了显示这些效果的经验数据,并提出了一个理论框架来解释草图沙漠的出现。最后,我们提出了两种方案来适应这些影响:(i)一种新的程序,将现有的草图方法适应到 k-规范空间中,(ii)一种直接为 k-规范空间设计新的草图方法的优化程序。

可用性和实现

本分析中使用的代码在 https://github.com/Kingsford-Group/mdsscope 下以许可协议的形式提供。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4b53/11549021/7039fbbd2d20/btae629f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4b53/11549021/483973dfab85/btae629f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4b53/11549021/7039fbbd2d20/btae629f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4b53/11549021/483973dfab85/btae629f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/4b53/11549021/7039fbbd2d20/btae629f2.jpg

相似文献

1
k-nonical space: sketching with reverse complements.k-典范空间:使用互补序列进行草图绘制。
Bioinformatics. 2024 Nov 1;40(11). doi: 10.1093/bioinformatics/btae629.
2
Sketching Methods with Small Window Guarantee Using Minimum Decycling Sets.使用最小去环集保证小窗口的草图方法。
J Comput Biol. 2024 Jul;31(7):597-615. doi: 10.1089/cmb.2024.0544. Epub 2024 Jul 9.
3
Sketching methods with small window guarantee using minimum decycling sets.使用最小去环集保证小窗口的绘制方法。
ArXiv. 2023 Nov 6:arXiv:2311.03592v1.
4
Density and Conservation Optimization of the Generalized Masked-Minimizer Sketching Scheme.广义掩蔽最小化草图方案的密度和守恒优化。
J Comput Biol. 2024 Jan;31(1):2-20. doi: 10.1089/cmb.2023.0212. Epub 2023 Nov 17.
5
A simple refined DNA minimizer operator enables 2-fold faster computation.一个简单的改进 DNA 简化操作符可以使计算速度提高 2 倍。
Bioinformatics. 2024 Feb 1;40(2). doi: 10.1093/bioinformatics/btae045.
6
HyperGen: Compact and Efficient Genome Sketching using Hyperdimensional Vectors.HyperGen:使用超维向量进行紧凑且高效的基因组草图绘制
Bioinformatics. 2024 Jul 16;40(7). doi: 10.1093/bioinformatics/btae452.
7
Set-Min Sketch: A Probabilistic Map for Power-Law Distributions with Application to -Mer Annotation.集最小草图:用于幂律分布的概率图及其在 -Mer 注释中的应用。
J Comput Biol. 2022 Feb;29(2):140-154. doi: 10.1089/cmb.2021.0429. Epub 2022 Jan 18.
8
Creating and Using Minimizer Sketches in Computational Genomics.在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
9
Genomic sketching with multiplicities and locality-sensitive hashing using Dashing 2.使用 Dashing 2 进行多重性和位置敏感哈希的基因组草图绘制。
Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123. Epub 2023 Jul 6.
10
On the Maximal Independent Sets of -mers with the Edit Distance.关于具有编辑距离的 - 聚体的最大独立集
ACM BCB. 2023 Sep;2023. doi: 10.1145/3584371.3612982. Epub 2023 Oct 4.

引用本文的文献

1
Efficient sequence alignment against millions of prokaryotic genomes with LexicMap.使用LexicMap与数百万个原核生物基因组进行高效序列比对。
Nat Biotechnol. 2025 Sep 10. doi: 10.1038/s41587-025-02812-8.

本文引用的文献

1
Sketching Methods with Small Window Guarantee Using Minimum Decycling Sets.使用最小去环集保证小窗口的草图方法。
J Comput Biol. 2024 Jul;31(7):597-615. doi: 10.1089/cmb.2024.0544. Epub 2024 Jul 9.
2
A Randomized Parallel Algorithm for Efficiently Finding Near-Optimal Universal Hitting Sets.一种用于高效找到近似最优通用命中集的随机并行算法。
Res Comput Mol Biol. 2020 May;12074:37-53. doi: 10.1007/978-3-030-45257-5_3. Epub 2020 Apr 21.
3
Density and Conservation Optimization of the Generalized Masked-Minimizer Sketching Scheme.
广义掩蔽最小化草图方案的密度和守恒优化。
J Comput Biol. 2024 Jan;31(1):2-20. doi: 10.1089/cmb.2023.0212. Epub 2023 Nov 17.
4
Fast and robust metagenomic sequence comparison through sparse chaining with skani.通过使用 skani 进行稀疏链接实现快速稳健的宏基因组序列比较。
Nat Methods. 2023 Nov;20(11):1661-1665. doi: 10.1038/s41592-023-02018-3. Epub 2023 Sep 21.
5
Creating and Using Minimizer Sketches in Computational Genomics.在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
6
Minmers are a generalization of minimizers that enable unbiased local Jaccard estimation.极小值是极小值的推广,能够实现无偏的局部杰卡德估计。
Bioinformatics. 2023 Sep 2;39(9). doi: 10.1093/bioinformatics/btad512.
7
Efficient minimizer orders for large values of using minimum decycling sets.利用最小去环集对大 值 进行有效最小化排序。
Genome Res. 2023 Jul;33(7):1154-1161. doi: 10.1101/gr.277644.123. Epub 2023 Aug 9.
8
Telomere-to-telomere assembly of diploid chromosomes with Verkko.利用 Verkko 进行二倍体染色体的端粒到端粒组装。
Nat Biotechnol. 2023 Oct;41(10):1474-1482. doi: 10.1038/s41587-023-01662-6. Epub 2023 Feb 16.
9
Parameterized syncmer schemes improve long-read mapping.参数化同步mers 方案提高了长读测序数据的比对效率。
PLoS Comput Biol. 2022 Oct 28;18(10):e1010638. doi: 10.1371/journal.pcbi.1010638. eCollection 2022 Oct.
10
Theory of local k-mer selection with applications to long-read alignment.基于局部 k-mer 选择的理论及其在长读测序比对中的应用。
Bioinformatics. 2022 Oct 14;38(20):4659-4669. doi: 10.1093/bioinformatics/btab790.