• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用PREQUAL自动去除非同源序列片段。

Automated Removal of Non-homologous Sequence Stretches with PREQUAL.

作者信息

Irisarri Iker, Burki Fabien, Whelan Simon

机构信息

Department of Organismal Biology (Program in Systematic Biology), Uppsala University, Uppsala, Sweden.

Department of Biodiversity and Evolutionary Biology, Museo Nacional de Ciencias Naturales, Madrid, Spain.

出版信息

Methods Mol Biol. 2021;2231:147-162. doi: 10.1007/978-1-0716-1036-7_10.

DOI:10.1007/978-1-0716-1036-7_10
PMID:33289892
Abstract

Large-scale multigene datasets used in phylogenomics and comparative genomics often contain sequence errors inherited from source genomes and transcriptomes. These errors typically manifest as stretches of non-homologous characters and derive from sequencing, assembly, and/or annotation errors. The lack of automatic tools to detect and remove sequence errors leads to the propagation of these errors in large-scale datasets. PREQUAL is a command line tool that identifies and masks regions with non-homologous adjacent characters in sets of unaligned homologous sequences. PREQUAL uses a full probabilistic approach based on pair hidden Markov models. On the front end, PREQUAL is user-friendly and simple to use while also allowing full customization to adjust filtering sensitivity. It is primarily aimed at amino acid sequences but can handle protein-coding nucleotide sequences. PREQUAL is computationally efficient and shows high sensitivity and accuracy. In this chapter, we briefly introduce the motivation for PREQUAL and its underlying methodology, followed by a description of basic and advanced usage, and conclude with some notes and recommendations. PREQUAL fills an important gap in the current bioinformatics tool kit for phylogenomics, contributing toward increased accuracy and reproducibility in future studies.

摘要

系统发育基因组学和比较基因组学中使用的大规模多基因数据集通常包含从源基因组和转录组继承的序列错误。这些错误通常表现为非同源字符片段,源于测序、组装和/或注释错误。缺乏检测和去除序列错误的自动工具会导致这些错误在大规模数据集中传播。PREQUAL是一个命令行工具,可识别并掩盖未比对的同源序列集中具有非同源相邻字符的区域。PREQUAL使用基于配对隐马尔可夫模型的全概率方法。在前端,PREQUAL用户友好且易于使用,同时还允许完全定制以调整过滤灵敏度。它主要针对氨基酸序列,但也可以处理蛋白质编码核苷酸序列。PREQUAL计算效率高,具有高灵敏度和准确性。在本章中,我们简要介绍了PREQUAL的动机及其基础方法,随后描述了基本和高级用法,并以一些注意事项和建议作为结尾。PREQUAL填补了当前系统发育基因组学生物信息学工具包中的一个重要空白,有助于提高未来研究的准确性和可重复性。

相似文献

1
Automated Removal of Non-homologous Sequence Stretches with PREQUAL.使用PREQUAL自动去除非同源序列片段。
Methods Mol Biol. 2021;2231:147-162. doi: 10.1007/978-1-0716-1036-7_10.
2
PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences.PREQUAL:检测未对齐的同源序列集中的非同源字符。
Bioinformatics. 2018 Nov 15;34(22):3929-3930. doi: 10.1093/bioinformatics/bty448.
3
Using hidden Markov models and observed evolution to annotate viral genomes.使用隐马尔可夫模型和观察到的进化对病毒基因组进行注释。
Bioinformatics. 2006 Jun 1;22(11):1308-16. doi: 10.1093/bioinformatics/btl092. Epub 2006 Apr 13.
4
A De-Novo Genome Analysis Pipeline (DeNoGAP) for large-scale comparative prokaryotic genomics studies.一种用于大规模比较原核生物基因组学研究的从头基因组分析流程(DeNoGAP)。
BMC Bioinformatics. 2016 Jun 30;17(1):260. doi: 10.1186/s12859-016-1142-2.
5
transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences.transAlign:利用氨基酸促进蛋白质编码DNA序列的多重比对。
BMC Bioinformatics. 2005 Jun 22;6:156. doi: 10.1186/1471-2105-6-156.
6
Evaluating the usefulness of alignment filtering methods to reduce the impact of errors on evolutionary inferences.评估对齐过滤方法在减少错误对进化推断影响方面的有用性。
BMC Evol Biol. 2019 Jan 11;19(1):21. doi: 10.1186/s12862-019-1350-2.
7
Aligning Protein-Coding Nucleotide Sequences with MACSE.使用MACSE比对蛋白质编码核苷酸序列。
Methods Mol Biol. 2021;2231:51-70. doi: 10.1007/978-1-0716-1036-7_4.
8
Modeling sequencing errors by combining Hidden Markov models.通过结合隐马尔可夫模型对测序错误进行建模。
Bioinformatics. 2003 Oct;19 Suppl 2:ii103-12. doi: 10.1093/bioinformatics/btg1067.
9
Hidden Markov Models in Bioinformatics: SNV Inference from Next Generation Sequence.生物信息学中的隐马尔可夫模型:从下一代测序中推断单核苷酸变异
Methods Mol Biol. 2017;1552:123-133. doi: 10.1007/978-1-4939-6753-7_9.
10
Phylogenomics Using Transcriptome Data.利用转录组数据的系统发育基因组学
Methods Mol Biol. 2016;1452:65-80. doi: 10.1007/978-1-4939-3774-5_4.

本文引用的文献

1
PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences.PREQUAL:检测未对齐的同源序列集中的非同源字符。
Bioinformatics. 2018 Nov 15;34(22):3929-3930. doi: 10.1093/bioinformatics/bty448.
2
Phylogenetic Tree Estimation With and Without Alignment: New Distance Methods and Benchmarking.有比对和无比对情况下的系统发育树估计:新的距离方法与基准测试
Syst Biol. 2017 Mar 1;66(2):218-231. doi: 10.1093/sysbio/syw074.