• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

高效解析高通量测序数据,并生成可重复的报告。

Efficient digest of high-throughput sequencing data in a reproducible report.

出版信息

BMC Bioinformatics. 2013;14 Suppl 11(Suppl 11):S3. doi: 10.1186/1471-2105-14-S11-S3. Epub 2013 Sep 13.

DOI:10.1186/1471-2105-14-S11-S3
PMID:24564231
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3846741/
Abstract

BACKGROUND

High-throughput sequencing (HTS) technologies are spearheading the accelerated development of biomedical research. Processing and summarizing the large amount of data generated by HTS presents a non-trivial challenge to bioinformatics. A commonly adopted standard is to store sequencing reads aligned to a reference genome in SAM (Sequence Alignment/Map) or BAM (Binary Alignment/Map) files. Quality control of SAM/BAM files is a critical checkpoint before downstream analysis. The goal of the current project is to facilitate and standardize this process.

RESULTS

We developed bamchop, a robust program to efficiently summarize key statistical metrics of HTS data stored in BAM files, and to visually present the results in a formatted report. The report documents information about various aspects of HTS data, such as sequencing quality, mapping to a reference genome, sequencing coverage, and base frequency. Bamchop uses the R language and Bioconductor packages to calculate statistical matrices and the Sweave utility and associated LaTeX markup for documentation. Bamchop's efficiency and robustness were tested on BAM files generated by local sequencing facilities and the 1000 Genomes Project. Source code, instruction and example reports of bamchop are freely available from https://github.com/CBMi-BiG/bamchop.

CONCLUSIONS

Bamchop enables biomedical researchers to quickly and rigorously evaluate HTS data by providing a convenient synopsis and user-friendly reports.

摘要

背景

高通量测序(HTS)技术正在推动生物医学研究的快速发展。处理和总结 HTS 产生的大量数据对生物信息学提出了不小的挑战。一种常用的标准是将比对到参考基因组的测序reads 存储在 SAM(序列比对/地图)或 BAM(二进制比对/地图)文件中。在进行下游分析之前,SAM/BAM 文件的质量控制是一个关键的检查点。当前项目的目标是促进和规范这一过程。

结果

我们开发了 bamchop,这是一个强大的程序,可以有效地总结存储在 BAM 文件中的 HTS 数据的关键统计指标,并以格式化报告的形式直观地呈现结果。该报告记录了有关 HTS 数据的各种方面的信息,例如测序质量、比对到参考基因组、测序覆盖度和碱基频率。bamchop 使用 R 语言和 Bioconductor 包来计算统计矩阵,使用 Sweave 实用程序和相关的 LaTeX 标记来记录文档。bamchop 的效率和稳健性在本地测序设施和 1000 基因组计划生成的 BAM 文件上进行了测试。bamchop 的源代码、说明和示例报告可从 https://github.com/CBMi-BiG/bamchop 免费获得。

结论

bamchop 通过提供方便的概述和用户友好的报告,使生物医学研究人员能够快速、严格地评估 HTS 数据。

相似文献

1
Efficient digest of high-throughput sequencing data in a reproducible report.高效解析高通量测序数据,并生成可重复的报告。
BMC Bioinformatics. 2013;14 Suppl 11(Suppl 11):S3. doi: 10.1186/1471-2105-14-S11-S3. Epub 2013 Sep 13.
2
SAMMate: a GUI tool for processing short read alignments in SAM/BAM format.SAMMate:一种用于处理SAM/BAM格式短读比对的图形用户界面工具。
Source Code Biol Med. 2011 Jan 13;6(1):2. doi: 10.1186/1751-0473-6-2.
3
SamQL: a structured query language and filtering tool for the SAM/BAM file format.SamQL:一种针对 SAM/BAM 文件格式的结构化查询语言和过滤工具。
BMC Bioinformatics. 2021 Oct 2;22(1):474. doi: 10.1186/s12859-021-04390-3.
4
Qualimap: evaluating next-generation sequencing alignment data.Qualimap:评估下一代测序比对数据。
Bioinformatics. 2012 Oct 15;28(20):2678-9. doi: 10.1093/bioinformatics/bts503. Epub 2012 Aug 22.
5
TopHat-Recondition: a post-processor for TopHat unmapped reads.TopHat重处理:一种用于TopHat未比对 reads 的后处理器。
BMC Bioinformatics. 2016 May 4;17(1):199. doi: 10.1186/s12859-016-1058-x.
6
Hadoop-BAM: directly manipulating next generation sequencing data in the cloud.Hadoop-BAM:在云中直接操作下一代测序数据。
Bioinformatics. 2012 Mar 15;28(6):876-7. doi: 10.1093/bioinformatics/bts054. Epub 2012 Feb 2.
7
Alview: Portable Software for Viewing Sequence Reads in BAM Formatted Files.Alview:用于查看BAM格式文件中序列读取的便携式软件。
Cancer Inform. 2015 Sep 13;14:105-7. doi: 10.4137/CIN.S26470. eCollection 2015.
8
BamToCov: an efficient toolkit for sequence coverage calculations.BamToCov:用于序列覆盖度计算的高效工具包。
Bioinformatics. 2022 Apr 28;38(9):2617-2618. doi: 10.1093/bioinformatics/btac125.
9
SeqLib: a C ++ API for rapid BAM manipulation, sequence alignment and sequence assembly.SeqLib:用于快速操作BAM、序列比对和序列组装的C++应用程序编程接口。
Bioinformatics. 2017 Mar 1;33(5):751-753. doi: 10.1093/bioinformatics/btw741.
10
IonCRAM: a reference-based compression tool for ion torrent sequence files.IonCRAM:一种基于参考的 Ion Torrent 测序文件压缩工具。
BMC Bioinformatics. 2020 Sep 9;21(1):397. doi: 10.1186/s12859-020-03726-9.

引用本文的文献

1
Large tandem repeats of grass frog (Rana temporaria) in silico and in situ.草蛙(欧洲林蛙)大串联重复序列的电子克隆和原位分析
BMC Genomics. 2025 May 6;26(1):445. doi: 10.1186/s12864-025-11643-5.
2
Pan-Cancer Analysis of the Prognostic and Immunological Role of TOMM40 to Identify Its Function in Breast Cancer.TOMM40预后和免疫作用的泛癌分析以确定其在乳腺癌中的功能
Biochem Genet. 2024 Apr 22. doi: 10.1007/s10528-024-10794-6.

本文引用的文献

1
ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions.ChIP-seq 及其他方法:检测和描述蛋白质-DNA 相互作用的新方法和改进方法。
Nat Rev Genet. 2012 Dec;13(12):840-52. doi: 10.1038/nrg3306. Epub 2012 Oct 23.
2
An integrated encyclopedia of DNA elements in the human genome.人类基因组中 DNA 元件的综合百科全书。
Nature. 2012 Sep 6;489(7414):57-74. doi: 10.1038/nature11247.
3
De novo mutations in human genetic disease.人类遗传疾病中的新生突变。
Nat Rev Genet. 2012 Jul 18;13(8):565-75. doi: 10.1038/nrg3241.
4
RNA-SeQC: RNA-seq metrics for quality control and process optimization.RNA-SeQC:用于质量控制和流程优化的 RNA-seq 指标。
Bioinformatics. 2012 Jun 1;28(11):1530-2. doi: 10.1093/bioinformatics/bts196. Epub 2012 Apr 25.
5
RNA-Seq Atlas--a reference database for gene expression profiling in normal tissue by next-generation sequencing.RNA-Seq 图谱——一个通过下一代测序对正常组织中的基因表达进行分析的参考数据库。
Bioinformatics. 2012 Apr 15;28(8):1184-5. doi: 10.1093/bioinformatics/bts084. Epub 2012 Feb 17.
6
Repetitive DNA and next-generation sequencing: computational challenges and solutions.重复 DNA 和新一代测序:计算挑战与解决方案。
Nat Rev Genet. 2011 Nov 29;13(1):36-46. doi: 10.1038/nrg3117.
7
Exome sequencing as a tool for Mendelian disease gene discovery.外显子组测序作为孟德尔疾病基因发现的工具。
Nat Rev Genet. 2011 Sep 27;12(11):745-55. doi: 10.1038/nrg3031.
8
Comparative analysis of algorithms for next-generation sequencing read alignment.下一代测序读段比对算法的比较分析。
Bioinformatics. 2011 Oct 15;27(20):2790-6. doi: 10.1093/bioinformatics/btr477. Epub 2011 Aug 19.
9
Genome-wide analysis of interferon regulatory factor I binding in primary human monocytes.干扰素调节因子 I 在原代人单核细胞中的结合的全基因组分析。
Gene. 2011 Nov 1;487(1):21-8. doi: 10.1016/j.gene.2011.07.004. Epub 2011 Jul 19.
10
Genome-wide genetic marker discovery and genotyping using next-generation sequencing.利用下一代测序进行全基因组遗传标记发现和基因分型。
Nat Rev Genet. 2011 Jun 17;12(7):499-510. doi: 10.1038/nrg3012.