• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SAMStat:监测下一代测序数据中的偏倚。

SAMStat: monitoring biases in next generation sequencing data.

机构信息

Omics Science Center, Riken Yokohama Institute, Tsurumi-ku, Yokohama, Japan.

出版信息

Bioinformatics. 2011 Jan 1;27(1):130-1. doi: 10.1093/bioinformatics/btq614. Epub 2010 Nov 18.

DOI:10.1093/bioinformatics/btq614
PMID:21088025
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3008642/
Abstract

MOTIVATION

The sequence alignment/map format (SAM) is a commonly used format to store the alignments between millions of short reads and a reference genome. Often certain positions within the reads are inherently more likely to contain errors due to the protocols used to prepare the samples. Such biases can have adverse effects on both mapping rate and accuracy. To understand the relationship between potential protocol biases and poor mapping we wrote SAMstat, a simple C program plotting nucleotide overrepresentation and other statistics in mapped and unmapped reads in a concise html page. Collecting such statistics also makes it easy to highlight problems in the data processing and enables non-experts to track data quality over time.

RESULTS

We demonstrate that studying sequence features in mapped data can be used to identify biases particular to one sequencing protocol. Once identified, such biases can be considered in the downstream analysis or even be removed by read trimming or filtering techniques.

AVAILABILITY

SAMStat is open source and freely available as a C program running on all Unix-compatible platforms. The source code is available from http://samstat.sourceforge.net.

CONTACT

timolassmann@gmail.com.

摘要

动机

序列比对/映射格式(SAM)是一种常用的格式,用于存储数百万个短读段与参考基因组之间的比对。由于用于准备样本的协议,读段内的某些位置通常更容易出现固有错误。这种偏差会对映射率和准确性产生不利影响。为了了解潜在协议偏差与映射不良之间的关系,我们编写了 SAMstat,这是一个简单的 C 程序,用于在映射和未映射的读段中以简洁的 HTML 页面绘制核苷酸过表达和其他统计信息。收集这些统计信息还可以方便地突出数据处理中的问题,并使非专家能够随时间跟踪数据质量。

结果

我们证明,研究映射数据中的序列特征可用于识别特定于一种测序协议的偏差。一旦确定,这些偏差可以在下游分析中考虑,甚至可以通过读段修剪或过滤技术来去除。

可用性

SAMStat 是开源的,可作为在所有与 Unix 兼容的平台上运行的 C 程序免费获得。源代码可从 http://samstat.sourceforge.net 获得。

联系方式

timolassmann@gmail.com。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cd2c/3008642/03cc4a771c17/btq614f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cd2c/3008642/03cc4a771c17/btq614f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cd2c/3008642/03cc4a771c17/btq614f1.jpg

相似文献

1
SAMStat: monitoring biases in next generation sequencing data.SAMStat:监测下一代测序数据中的偏倚。
Bioinformatics. 2011 Jan 1;27(1):130-1. doi: 10.1093/bioinformatics/btq614. Epub 2010 Nov 18.
2
SAMStat 2: quality control for next generation sequencing data.SAMStat 2:下一代测序数据的质量控制。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btad019.
3
Re-alignment of the unmapped reads with base quality score.将未映射的 reads 与碱基质量得分重新比对。
BMC Bioinformatics. 2015;16 Suppl 5(Suppl 5):S8. doi: 10.1186/1471-2105-16-S5-S8. Epub 2015 Mar 18.
4
Qualimap: evaluating next-generation sequencing alignment data.Qualimap:评估下一代测序比对数据。
Bioinformatics. 2012 Oct 15;28(20):2678-9. doi: 10.1093/bioinformatics/bts503. Epub 2012 Aug 22.
5
Accurate estimation of short read mapping quality for next-generation genome sequencing.准确估计下一代基因组测序中短读测序数据的映射质量。
Bioinformatics. 2012 Sep 15;28(18):i349-i355. doi: 10.1093/bioinformatics/bts408.
6
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.
7
BamView: viewing mapped read alignment data in the context of the reference sequence.BamView:在参考序列的上下文中查看映射的读取比对数据。
Bioinformatics. 2010 Mar 1;26(5):676-7. doi: 10.1093/bioinformatics/btq010. Epub 2010 Jan 12.
8
GenomeView: a next-generation genome browser.基因组浏览器:下一代基因组浏览器。
Nucleic Acids Res. 2012 Jan;40(2):e12. doi: 10.1093/nar/gkr995. Epub 2011 Nov 18.
9
SQUAT: a Sequencing Quality Assessment Tool for data quality assessments of genome assemblies.SQUAT:用于基因组组装数据质量评估的测序质量评估工具。
BMC Genomics. 2019 Apr 18;19(Suppl 9):238. doi: 10.1186/s12864-019-5445-3.
10
BamView: visualizing and interpretation of next-generation sequencing read alignments.BamView:下一代测序读取比对的可视化和解释。
Brief Bioinform. 2013 Mar;14(2):203-12. doi: 10.1093/bib/bbr073. Epub 2012 Jan 16.

引用本文的文献

1
Comparative transcriptomics of salinomycin molecular toxicity in chicken and turkey.盐霉素对鸡和火鸡分子毒性的比较转录组学
Sci Rep. 2025 Jul 1;15(1):21586. doi: 10.1038/s41598-025-08812-7.
2
Partial amelioration of a chronic cigarette-smoke-induced phenotype in mice by switching to electronic cigarettes.通过改用电子烟部分改善小鼠慢性香烟烟雾诱导的表型。
Arch Toxicol. 2025 Apr 18. doi: 10.1007/s00204-025-04055-7.
3
A single rare σ70 variant establishes a unique gene expression pattern in the E. coli pathobiont LF82.一株罕见的 σ70 变体在大肠杆菌条件致病菌 LF82 中建立了独特的基因表达模式。

本文引用的文献

1
Linking promoters to functional transcripts in small samples with nanoCAGE and CAGEscan.利用 nanoCAGE 和 CAGEscan 在小样本中连接启动子和功能转录本。
Nat Methods. 2010 Jul;7(7):528-34. doi: 10.1038/nmeth.1470. Epub 2010 Jun 13.
2
The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants.Sanger 测序的 FASTQ 文件格式,用于包含质量分数的序列,以及 Solexa/Illumina FASTQ 变体。
Nucleic Acids Res. 2010 Apr;38(6):1767-71. doi: 10.1093/nar/gkp1137. Epub 2009 Dec 16.
3
The Sequence Alignment/Map format and SAMtools.
Nucleic Acids Res. 2024 Oct 28;52(19):11552-11570. doi: 10.1093/nar/gkae773.
4
Transcriptomic profiling reveals histone acetylation-regulated genes involved in somatic embryogenesis in Arabidopsis thaliana.转录组谱分析揭示了组蛋白乙酰化调控的拟南芥体细胞胚胎发生相关基因。
BMC Genomics. 2024 Aug 15;25(1):788. doi: 10.1186/s12864-024-10623-5.
5
Sex-specific DNA-replication in the early mammalian embryo.哺乳动物胚胎早期的性别特异性 DNA 复制。
Nat Commun. 2024 Jul 27;15(1):6323. doi: 10.1038/s41467-024-50727-w.
6
Comparative Genomic Analysis of Bacterial Data in BV-BRC: An Example Exploring Antimicrobial Resistance.细菌性阴道病-英国皇家妇产科医师学院(BV-BRC)细菌数据的比较基因组学分析:一个探索抗菌药物耐药性的实例。
Methods Mol Biol. 2024;2802:547-571. doi: 10.1007/978-1-0716-3838-5_18.
7
Genomic analysis of fruit size and shape traits in apple: unveiling candidate genes through GWAS analysis.苹果果实大小和形状性状的基因组分析:通过全基因组关联研究(GWAS)分析揭示候选基因
Hortic Res. 2023 Dec 19;11(2):uhad270. doi: 10.1093/hr/uhad270. eCollection 2024 Feb.
8
Gene editing and cardiac disease modelling for the interpretation of genetic variants of uncertain significance in congenital heart disease.基因编辑和心脏疾病建模,用于解释先天性心脏病中意义不确定的遗传变异。
Stem Cell Res Ther. 2023 Dec 5;14(1):345. doi: 10.1186/s13287-023-03592-1.
9
SAMStat 2: quality control for next generation sequencing data.SAMStat 2:下一代测序数据的质量控制。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btad019.
10
Loss of SNAI1 induces cellular plasticity in invasive triple-negative breast cancer cells.SNAI1 的缺失诱导侵袭性三阴性乳腺癌细胞的细胞可塑性。
Cell Death Dis. 2022 Sep 28;13(9):832. doi: 10.1038/s41419-022-05280-z.
序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.
4
Fast and accurate short read alignment with Burrows-Wheeler transform.使用Burrows-Wheeler变换进行快速准确的短读比对。
Bioinformatics. 2009 Jul 15;25(14):1754-60. doi: 10.1093/bioinformatics/btp324. Epub 2009 May 18.
5
How to map billions of short reads onto genomes.如何将数十亿条短序列 reads 比对到基因组上。
Nat Biotechnol. 2009 May;27(5):455-7. doi: 10.1038/nbt0509-455.
6
Mapping short DNA sequencing reads and calling variants using mapping quality scores.使用比对质量分数比对短DNA测序读数并识别变异。
Genome Res. 2008 Nov;18(11):1851-8. doi: 10.1101/gr.078212.108. Epub 2008 Aug 19.
7
A code for transcription initiation in mammalian genomes.哺乳动物基因组中转录起始的一种编码。
Genome Res. 2008 Jan;18(1):1-12. doi: 10.1101/gr.6831208. Epub 2007 Nov 21.
8
Genome-wide analysis of mammalian promoter architecture and evolution.哺乳动物启动子结构与进化的全基因组分析。
Nat Genet. 2006 Jun;38(6):626-35. doi: 10.1038/ng1789. Epub 2006 Apr 28.