Suppr超能文献

通过高度敏感的序列比对进行全基因组同线性:萨塔马。

Genome-wide synteny through highly sensitive sequence alignment: Satsuma.

机构信息

Broad Institute of MIT and Harvard, 7 Cambridge Center, Cambridge, MA 02142, USA.

出版信息

Bioinformatics. 2010 May 1;26(9):1145-51. doi: 10.1093/bioinformatics/btq102. Epub 2010 Mar 5.

Abstract

MOTIVATION

Comparative genomics heavily relies on alignments of large and often complex DNA sequences. From an engineering perspective, the problem here is to provide maximum sensitivity (to find all there is to find), specificity (to only find real homology) and speed (to accommodate the billions of base pairs of vertebrate genomes).

RESULTS

Satsuma addresses all three issues through novel strategies: (i) cross-correlation, implemented via fast Fourier transform; (ii) a match scoring scheme that eliminates almost all false hits; and (iii) an asynchronous 'battleship'-like search that allows for aligning two entire fish genomes (470 and 217 Mb) in 120 CPU hours using 15 processors on a single machine.

AVAILABILITY

Satsuma is part of the Spines software package, implemented in C++ on Linux. The latest version of Spines can be freely downloaded under the LGPL license from http://www.broadinstitute.org/science/programs/genome-biology/spines/.

摘要

动机

比较基因组学在很大程度上依赖于对大型且通常复杂的 DNA 序列的比对。从工程学的角度来看,这里的问题是提供最大的灵敏度(以找到所有可找到的)、特异性(只找到真正的同源性)和速度(以适应脊椎动物基因组的数十亿个碱基对)。

结果

Satsuma 通过新颖的策略解决了所有三个问题:(i)通过快速傅里叶变换实现的互相关;(ii)一种消除几乎所有假命中的匹配评分方案;和(iii)异步的“战舰”式搜索,允许在单个机器上使用 15 个处理器在 120 CPU 小时内对齐两个完整的鱼类基因组(470 和 217 Mb)。

可用性

Satsuma 是 Spines 软件包的一部分,用 C++ 在 Linux 上实现。最新版本的 Spines 可以根据 LGPL 许可证免费从 http://www.broadinstitute.org/science/programs/genome-biology/spines/ 下载。

相似文献

4
Accurate anchoring alignment of divergent sequences.发散序列的精确锚定比对。
Bioinformatics. 2006 Jan 1;22(1):29-34. doi: 10.1093/bioinformatics/bti772. Epub 2005 Nov 13.
5
Accurate identification of orthologous segments among multiple genomes.准确识别多个基因组之间的直系同源片段。
Bioinformatics. 2009 Apr 1;25(7):853-60. doi: 10.1093/bioinformatics/btp070. Epub 2009 Feb 2.
6
MUMmer4: A fast and versatile genome alignment system.MUMmer4:一种快速且通用的基因组比对系统。
PLoS Comput Biol. 2018 Jan 26;14(1):e1005944. doi: 10.1371/journal.pcbi.1005944. eCollection 2018 Jan.
9
Fast model-based protein homology detection without alignment.基于快速模型的无需比对的蛋白质同源性检测。
Bioinformatics. 2007 Jul 15;23(14):1728-36. doi: 10.1093/bioinformatics/btm247. Epub 2007 May 8.

引用本文的文献

本文引用的文献

1
MizBee: a multiscale synteny browser.MizBee:一个多尺度同线性浏览器。
IEEE Trans Vis Comput Graph. 2009 Nov-Dec;15(6):897-904. doi: 10.1109/TVCG.2009.167.
9
The Genomes of Oryza sativa: a history of duplications.水稻基因组:重复序列的历史
PLoS Biol. 2005 Feb;3(2):e38. doi: 10.1371/journal.pbio.0030038. Epub 2005 Feb 1.

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验