• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SamQL:一种针对 SAM/BAM 文件格式的结构化查询语言和过滤工具。

SamQL: a structured query language and filtering tool for the SAM/BAM file format.

机构信息

Laboratory of Genetics and Genomics, National Institute on Aging, Intramural Research Program, National Institutes of Health, Baltimore, MD, 21224, USA.

出版信息

BMC Bioinformatics. 2021 Oct 2;22(1):474. doi: 10.1186/s12859-021-04390-3.

DOI:10.1186/s12859-021-04390-3
PMID:34600480
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8487582/
Abstract

BACKGROUND

The Sequence Alignment/Map Format Specification (SAM) is one of the most widely adopted file formats in bioinformatics and many researchers use it daily. Several tools, including most high-throughput sequencing read aligners, use it as their primary output and many more tools have been developed to process it. However, despite its flexibility, SAM encoded files can often be difficult to query and understand even for experienced bioinformaticians. As genomic data are rapidly growing, structured, and efficient queries on data that are encoded in SAM/BAM files are becoming increasingly important. Existing tools are very limited in their query capabilities or are not efficient. Critically, new tools that address these shortcomings, should not be able to support existing large datasets but should also do so without requiring massive data transformations and file infrastructure reorganizations.

RESULTS

Here we introduce SamQL, an SQL-like query language for the SAM format with intuitive syntax that supports complex and efficient queries on top of SAM/BAM files and that can replace commonly used Bash one-liners employed by many bioinformaticians. SamQL has high expressive power with no upper limit on query size and when parallelized, outperforms other substantially less expressive software.

CONCLUSIONS

SamQL is a complete query language that we envision as a step to a structured database engine for genomics. SamQL is written in Go, and is freely available as standalone program and as an open-source library under an MIT license, https://github.com/maragkakislab/samql/ .

摘要

背景

序列比对/映射格式规范(SAM)是生物信息学中使用最广泛的文件格式之一,许多研究人员每天都在使用它。包括大多数高通量测序读对齐工具在内的几个工具都使用它作为其主要输出,并且已经开发了更多的工具来处理它。然而,尽管 SAM 编码文件具有灵活性,但即使对于有经验的生物信息学家来说,它们也常常难以查询和理解。随着基因组数据的快速增长,对以 SAM/BAM 文件编码的数据进行结构化和高效查询变得越来越重要。现有的工具在查询功能方面非常有限,或者效率不高。关键是,新的工具应该能够解决这些缺点,不仅能够支持现有的大型数据集,而且不需要进行大规模的数据转换和文件基础设施重组。

结果

在这里,我们介绍了 SamQL,这是一种用于 SAM 格式的类似 SQL 的查询语言,它具有直观的语法,支持在 SAM/BAM 文件之上进行复杂而高效的查询,并且可以替代许多生物信息学家常用的 Bash 单行命令。SamQL 具有很高的表达能力,没有查询大小的上限,并且在并行化时,性能优于其他表达能力低得多的软件。

结论

SamQL 是一种完整的查询语言,我们将其视为基因组学结构化数据库引擎的一步。SamQL 是用 Go 编写的,作为一个独立的程序和一个 MIT 许可证下的开源库免费提供,https://github.com/maragkakislab/samql/ 。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5fe8/8487582/671e286e95a3/12859_2021_4390_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5fe8/8487582/41e3f82b676f/12859_2021_4390_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5fe8/8487582/671e286e95a3/12859_2021_4390_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5fe8/8487582/41e3f82b676f/12859_2021_4390_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5fe8/8487582/671e286e95a3/12859_2021_4390_Fig2_HTML.jpg

相似文献

1
SamQL: a structured query language and filtering tool for the SAM/BAM file format.SamQL:一种针对 SAM/BAM 文件格式的结构化查询语言和过滤工具。
BMC Bioinformatics. 2021 Oct 2;22(1):474. doi: 10.1186/s12859-021-04390-3.
2
HTSlib: C library for reading/writing high-throughput sequencing data.HTSlib:用于读取/写入高通量测序数据的 C 库。
Gigascience. 2021 Feb 16;10(2). doi: 10.1093/gigascience/giab007.
3
SAMMate: a GUI tool for processing short read alignments in SAM/BAM format.SAMMate:一种用于处理SAM/BAM格式短读比对的图形用户界面工具。
Source Code Biol Med. 2011 Jan 13;6(1):2. doi: 10.1186/1751-0473-6-2.
4
TopHat-Recondition: a post-processor for TopHat unmapped reads.TopHat重处理:一种用于TopHat未比对 reads 的后处理器。
BMC Bioinformatics. 2016 May 4;17(1):199. doi: 10.1186/s12859-016-1058-x.
5
CSAM: Compressed SAM format.CSAM:压缩 SAM 格式。
Bioinformatics. 2016 Dec 15;32(24):3709-3716. doi: 10.1093/bioinformatics/btw543. Epub 2016 Aug 18.
6
quickBAM: a parallelized BAM file access API for high-throughput sequence analysis informatics.quickBAM:一种用于高通量序列分析信息学的并行化 BAM 文件访问 API。
Bioinformatics. 2023 Aug 1;39(8). doi: 10.1093/bioinformatics/btad463.
7
Efficient digest of high-throughput sequencing data in a reproducible report.高效解析高通量测序数据,并生成可重复的报告。
BMC Bioinformatics. 2013;14 Suppl 11(Suppl 11):S3. doi: 10.1186/1471-2105-14-S11-S3. Epub 2013 Sep 13.
8
Sambamba: fast processing of NGS alignment formats.Sambamba:快速处理 NGS 比对格式。
Bioinformatics. 2015 Jun 15;31(12):2032-4. doi: 10.1093/bioinformatics/btv098. Epub 2015 Feb 19.
9
IonCRAM: a reference-based compression tool for ion torrent sequence files.IonCRAM:一种基于参考的 Ion Torrent 测序文件压缩工具。
BMC Bioinformatics. 2020 Sep 9;21(1):397. doi: 10.1186/s12859-020-03726-9.
10
Bathometer: lightning fast depth-of-reads query.bathometer:闪电般快速的深度读数查询。
Bioinformatics. 2021 Nov 18;37(22):4233-4234. doi: 10.1093/bioinformatics/btab372.

引用本文的文献

1
The relationship between hemoglobin/red blood cell distribution width ratio and mortality in patients with intracranial hemorrhage: a possible protective effect for the elderly?血红蛋白/红细胞分布宽度比值与颅内出血患者死亡率的关系:老年人可能具有保护作用?
Intern Emerg Med. 2023 Nov;18(8):2301-2310. doi: 10.1007/s11739-023-03431-4. Epub 2023 Sep 23.

本文引用的文献

1
Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype.基于图的基因组比对和基因分型与 HISAT2 和 HISAT-genotype。
Nat Biotechnol. 2019 Aug;37(8):907-915. doi: 10.1038/s41587-019-0201-4. Epub 2019 Aug 2.
2
Genomics and data science: an application within an umbrella.基因组学和数据科学:伞下的应用。
Genome Biol. 2019 May 29;20(1):109. doi: 10.1186/s13059-019-1724-1.
3
Big data challenges in genome informatics.基因组信息学中的大数据挑战。
Biophys Rev. 2019 Feb;11(1):51-54. doi: 10.1007/s12551-018-0493-5. Epub 2019 Jan 25.
4
Minimap2: pairwise alignment for nucleotide sequences.Minimap2:核苷酸序列的两两比对。
Bioinformatics. 2018 Sep 15;34(18):3094-3100. doi: 10.1093/bioinformatics/bty191.
5
elPrep: High-Performance Preparation of Sequence Alignment/Map Files for Variant Calling.elPrep:用于变异检测的序列比对/映射文件的高性能制备
PLoS One. 2015 Jul 16;10(7):e0132868. doi: 10.1371/journal.pone.0132868. eCollection 2015.
6
Sambamba: fast processing of NGS alignment formats.Sambamba:快速处理 NGS 比对格式。
Bioinformatics. 2015 Jun 15;31(12):2032-4. doi: 10.1093/bioinformatics/btv098. Epub 2015 Feb 19.
7
STAR: ultrafast universal RNA-seq aligner.STAR:超快通用 RNA-seq 对齐工具。
Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25.
8
BamTools: a C++ API and toolkit for analyzing and managing BAM files.BamTools:一个用于分析和管理 BAM 文件的 C++ API 和工具包。
Bioinformatics. 2011 Jun 15;27(12):1691-2. doi: 10.1093/bioinformatics/btr174. Epub 2011 Apr 14.
9
Efficient storage of high throughput DNA sequencing data using reference-based compression.利用基于参考的压缩技术高效存储高通量 DNA 测序数据。
Genome Res. 2011 May;21(5):734-40. doi: 10.1101/gr.114819.110. Epub 2011 Jan 18.
10
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.