• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用精确的词匹配注释大型基因组。

Annotating large genomes with exact word matches.

作者信息

Healy John, Thomas Elizabeth E, Schwartz Jacob T, Wigler Michael

机构信息

Cold Spring Harbor Laboratory, Cold Spring Harbor, New York 11724, USA.

出版信息

Genome Res. 2003 Oct;13(10):2306-15. doi: 10.1101/gr.1350803. Epub 2003 Sep 15.

DOI:10.1101/gr.1350803
PMID:12975312
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC403711/
Abstract

We have developed a tool for rapidly determining the number of exact matches of any word within large, internally repetitive genomes or sets of genomes. Thus we can readily annotate any sequence, including the entire human genome, with the counts of its constituent words. We create a Burrows-Wheeler transform of the genome, which together with auxiliary data structures facilitating counting, can reside in about one gigabyte of RAM. Our original interest was motivated by oligonucleotide probe design, and we describe a general protocol for defining unique hybridization probes. But our method also has applications for the analysis of genome structure and assembly. We demonstrate the identification of chromosome-specific repeats, and outline a general procedure for finding undiscovered repeats. We also illustrate the changing contents of the human genome assemblies by comparing the annotations built from different genome freezes.

摘要

我们开发了一种工具,用于快速确定大型内部重复基因组或基因组集合中任何单词的精确匹配数。因此,我们可以轻松地用其组成单词的计数来注释任何序列,包括整个人类基因组。我们创建了基因组的Burrows-Wheeler变换,它与便于计数的辅助数据结构一起,大约可以存储在1GB的随机存取存储器中。我们最初的兴趣源于寡核苷酸探针设计,并且我们描述了一种定义独特杂交探针的通用方案。但我们的方法也可应用于基因组结构和组装的分析。我们展示了染色体特异性重复序列的鉴定,并概述了寻找未发现重复序列的一般程序。我们还通过比较不同基因组冻结版本构建的注释来说明人类基因组组装内容的变化。

相似文献

1
Annotating large genomes with exact word matches.用精确的词匹配注释大型基因组。
Genome Res. 2003 Oct;13(10):2306-15. doi: 10.1101/gr.1350803. Epub 2003 Sep 15.
2
De novo repeat classification and fragment assembly.从头重复序列分类和片段组装。
Genome Res. 2004 Sep;14(9):1786-96. doi: 10.1101/gr.2395204.
3
Finding Maximal Exact Matches Using the r-Index.使用 r-索引查找最大精确匹配。
J Comput Biol. 2022 Feb;29(2):188-194. doi: 10.1089/cmb.2021.0445. Epub 2022 Jan 17.
4
BWtrs: A tool for searching for tandem repeats in DNA sequences based on the Burrows-Wheeler transform.BWtrs:一种基于 Burrows-Wheeler 变换的用于在 DNA 序列中搜索串联重复的工具。
Genomics. 2010 Nov;96(5):316-21. doi: 10.1016/j.ygeno.2010.08.001. Epub 2010 Aug 13.
5
LR_Gapcloser: a tiling path-based gap closer that uses long reads to complete genome assembly.LR_Gapcloser:一种基于平铺路径的缺口闭合器,它使用长读长来完成基因组组装。
Gigascience. 2019 Jan 1;8(1):giy157. doi: 10.1093/gigascience/giy157.
6
Computational BAC clone contig assembly for comprehensive genome analysis.用于全面基因组分析的计算性BAC克隆重叠群组装
Genes Chromosomes Cancer. 2004 May;40(1):66-71. doi: 10.1002/gcc.20016.
7
Barnacle: an assembly algorithm for clone-based sequences of whole genomes.藤壶:一种用于全基因组基于克隆序列的组装算法。
Gene. 2003 Nov 27;320:165-76. doi: 10.1016/s0378-1119(03)00825-4.
8
GASS: genome structural annotation for Eukaryotes based on species similarity.GASS:基于物种相似性的真核生物基因组结构注释
BMC Genomics. 2015 Mar 4;16(1):150. doi: 10.1186/s12864-015-1353-3.
9
Space-efficient whole genome comparisons with Burrows-Wheeler transforms.利用布隆过滤器变换进行节省空间的全基因组比较。
J Comput Biol. 2005 May;12(4):407-15. doi: 10.1089/cmb.2005.12.407.
10
PCAP: a whole-genome assembly program.PCAP:一个全基因组组装程序。
Genome Res. 2003 Sep;13(9):2164-70. doi: 10.1101/gr.1390403.

引用本文的文献

1
Multiple sclerosis risk variants influence the peripheral B-cell compartment early in life in the general population.多发性硬化症风险变异体影响普通人群生命早期的外周 B 细胞区室。
Eur J Neurol. 2023 Feb;30(2):434-442. doi: 10.1111/ene.15582. Epub 2022 Oct 12.
2
Methodologies for the Discovery of Transposable Element Families.转座元件家族发现方法学
Genes (Basel). 2022 Apr 17;13(4):709. doi: 10.3390/genes13040709.
3
Single Copy Oligonucleotide Fluorescence In Situ Hybridization Probe Design Platforms: Development, Application and Evaluation.单拷贝寡核苷酸荧光原位杂交探针设计平台:开发、应用和评估。
Int J Mol Sci. 2021 Jul 1;22(13):7124. doi: 10.3390/ijms22137124.
4
T cell composition and polygenic multiple sclerosis risk: A population-based study in children.T 细胞组成与多发性硬化症的多基因风险:基于人群的儿童研究。
Eur J Neurol. 2021 Nov;28(11):3731-3741. doi: 10.1111/ene.15019. Epub 2021 Jul 27.
5
Rapid, Paralog-Sensitive CNV Analysis of 2457 Human Genomes Using QuicK-mer2.利用 QuicK-mer2 快速、平行敏感的拷贝数变异分析 2457 个人类基因组
Genes (Basel). 2020 Jan 29;11(2):141. doi: 10.3390/genes11020141.
6
Estimating the -mer Coverage Frequencies in Genomic Datasets: A Comparative Assessment of the State-of-the-art.估算基因组数据集中的-mer覆盖频率:对当前技术水平的比较评估。
Curr Genomics. 2019 Jan;20(1):2-15. doi: 10.2174/1389202919666181026101326.
7
A benchmark study of k-mer counting methods for high-throughput sequencing.用于高通量测序的 k-mer 计数方法的基准研究。
Gigascience. 2018 Dec 1;7(12):giy125. doi: 10.1093/gigascience/giy125.
8
Short Read Mapping: An Algorithmic Tour.短读映射:算法之旅。
Proc IEEE Inst Electr Electron Eng. 2017 Mar;105(3):436-458. doi: 10.1109/JPROC.2015.2455551. Epub 2015 Sep 7.
9
Rapid quantification of sequence repeats to resolve the size, structure and contents of bacterial genomes.快速定量序列重复以解析细菌基因组的大小、结构和内容。
BMC Genomics. 2013 Aug 8;14:537. doi: 10.1186/1471-2164-14-537.
10
Organizational heterogeneity of vertebrate genomes.脊椎动物基因组的组织异质性。
PLoS One. 2012;7(2):e32076. doi: 10.1371/journal.pone.0032076. Epub 2012 Feb 27.

本文引用的文献

1
Representational oligonucleotide microarray analysis: a high-resolution method to detect genome copy number variation.代表性寡核苷酸微阵列分析:一种检测基因组拷贝数变异的高分辨率方法。
Genome Res. 2003 Oct;13(10):2291-305. doi: 10.1101/gr.1349003. Epub 2003 Sep 15.
2
The UCSC Genome Browser Database.加州大学圣克鲁兹分校基因组浏览器数据库。
Nucleic Acids Res. 2003 Jan 1;31(1):51-4. doi: 10.1093/nar/gkg129.
3
A 9.1-kb gap in the genome reference map is shown to be a stable deletion/insertion polymorphism of ancestral origin.基因组参考图谱中的一个9.1千碱基对的缺口被证明是一个起源于祖先的稳定缺失/插入多态性。
Genomics. 2002 Dec;80(6):585-92. doi: 10.1006/geno.2002.7014.
4
BLAT--the BLAST-like alignment tool.BLAT——类BLAST比对工具。
Genome Res. 2002 Apr;12(4):656-64. doi: 10.1101/gr.229202.
5
Selection of optimal DNA oligos for gene expression arrays.用于基因表达阵列的最佳DNA寡核苷酸的选择。
Bioinformatics. 2001 Nov;17(11):1067-76. doi: 10.1093/bioinformatics/17.11.1067.
6
REPuter: the manifold applications of repeat analysis on a genomic scale.REPuter:基因组规模重复序列分析的多种应用
Nucleic Acids Res. 2001 Nov 15;29(22):4633-42. doi: 10.1093/nar/29.22.4633.
7
Repbase update: a database and an electronic journal of repetitive elements.Repbase更新:一个关于重复元件的数据库及电子期刊。
Trends Genet. 2000 Sep;16(9):418-20. doi: 10.1016/s0168-9525(00)02093-x.
8
REPuter: fast computation of maximal repeats in complete genomes.REPuter:完整基因组中最大重复序列的快速计算
Bioinformatics. 1999 May;15(5):426-7. doi: 10.1093/bioinformatics/15.5.426.
9
Improved tools for biological sequence comparison.用于生物序列比较的改进工具。
Proc Natl Acad Sci U S A. 1988 Apr;85(8):2444-8. doi: 10.1073/pnas.85.8.2444.
10
Basic local alignment search tool.基本局部比对搜索工具
J Mol Biol. 1990 Oct 5;215(3):403-10. doi: 10.1016/S0022-2836(05)80360-2.