• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

InpactorDB:一个基于机器学习的自由对齐方法的分类谱系水平植物 LTR 反转录转座子参考文库。

InpactorDB: A Classified Lineage-Level Plant LTR Retrotransposon Reference Library for Free-Alignment Methods Based on Machine Learning.

机构信息

Department of Computer Science, Universidad Autónoma de Manizales, 170002 Manizales, Colombia.

Department of Systems and Informatics, Universidad de Caldas, 170002 Manizales, Colombia.

出版信息

Genes (Basel). 2021 Jan 28;12(2):190. doi: 10.3390/genes12020190.

DOI:10.3390/genes12020190
PMID:33525408
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7910972/
Abstract

Long terminal repeat (LTR) retrotransposons are mobile elements that constitute the major fraction of most plant genomes. The identification and annotation of these elements via bioinformatics approaches represent a major challenge in the era of massive plant genome sequencing. In addition to their involvement in genome size variation, LTR retrotransposons are also associated with the function and structure of different chromosomal regions and can alter the function of coding regions, among others. Several sequence databases of plant LTR retrotransposons are available for public access, such as PGSB and RepetDB, or restricted access such as Repbase. Although these databases are useful to identify LTR-RTs in new genomes by similarity, the elements of these databases are not fully classified to the lineage (also called family) level. Here, we present InpactorDB, a semi-curated dataset composed of 130,439 elements from 195 plant genomes (belonging to 108 plant species) classified to the lineage level. This dataset has been used to train two deep neural networks (i.e., one fully connected and one convolutional) for the rapid classification of these elements. In lineage-level classification approaches, we obtain up to 98% performance, indicated by the F1-score, precision and recall scores.

摘要

长末端重复(LTR)反转录转座子是一类可移动元件,构成了大多数植物基因组的主要部分。通过生物信息学方法对这些元件进行鉴定和注释,是大规模植物基因组测序时代的主要挑战之一。除了参与基因组大小的变化外,LTR 反转录转座子还与不同染色体区域的功能和结构有关,并且可以改变编码区域等的功能。有几个植物 LTR 反转录转座子的序列数据库可供公众访问,例如 PGSB 和 RepetDB,或者限制访问,例如 Repbase。虽然这些数据库通过相似性有助于识别新基因组中的 LTR-RTs,但这些数据库中的元件并没有完全分类到谱系(也称为家族)水平。在这里,我们展示了 InpactorDB,这是一个由来自 195 个植物基因组(属于 108 个植物物种)的 130,439 个元件组成的半注释数据集,这些元件被分类到谱系水平。该数据集已用于训练两个深度神经网络(即一个全连接神经网络和一个卷积神经网络),以快速对这些元件进行分类。在谱系水平的分类方法中,我们获得了高达 98%的性能,由 F1 分数、精确率和召回率得分表示。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/4a587dc57971/genes-12-00190-g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/700b039fd797/genes-12-00190-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/d3e14e1a7ba7/genes-12-00190-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/1b2eadc763f9/genes-12-00190-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/dd6c3ab85abb/genes-12-00190-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/97affd4cc45b/genes-12-00190-g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/4a587dc57971/genes-12-00190-g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/700b039fd797/genes-12-00190-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/d3e14e1a7ba7/genes-12-00190-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/1b2eadc763f9/genes-12-00190-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/dd6c3ab85abb/genes-12-00190-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/97affd4cc45b/genes-12-00190-g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/fe5c/7910972/4a587dc57971/genes-12-00190-g006.jpg

相似文献

1
InpactorDB: A Classified Lineage-Level Plant LTR Retrotransposon Reference Library for Free-Alignment Methods Based on Machine Learning.InpactorDB:一个基于机器学习的自由对齐方法的分类谱系水平植物 LTR 反转录转座子参考文库。
Genes (Basel). 2021 Jan 28;12(2):190. doi: 10.3390/genes12020190.
2
InpactorDB: A Plant LTR Retrotransposon Reference Library.InpactorDB:植物 LTR 反转座子参考文库。
Methods Mol Biol. 2023;2703:31-44. doi: 10.1007/978-1-0716-3389-2_3.
3
Rapid and Recent Evolution of LTR Retrotransposons Drives Rice Genome Evolution During the Speciation of AA-Genome Species.LTR反转录转座子的快速与近期进化推动了AA基因组物种形成过程中的水稻基因组进化。
G3 (Bethesda). 2017 Jun 7;7(6):1875-1885. doi: 10.1534/g3.116.037572.
4
Long terminal repeat retrotransposons of Oryza sativa.水稻的长末端重复逆转座子
Genome Biol. 2002 Sep 13;3(10):RESEARCH0053. doi: 10.1186/gb-2002-3-10-research0053.
5
A comprehensive annotation dataset of intact LTR retrotransposons of 300 plant genomes.300 种植物基因组完整 LTR 反转录转座子的综合注释数据集。
Sci Data. 2021 Jul 15;8(1):174. doi: 10.1038/s41597-021-00968-x.
6
Automatic curation of LTR retrotransposon libraries from plant genomes through machine learning.通过机器学习自动构建植物基因组中的 LTR 反转录转座子文库。
J Integr Bioinform. 2022 Jul 12;19(3). doi: 10.1515/jib-2021-0036. eCollection 2022 Sep 1.
7
RetrOryza: a database of the rice LTR-retrotransposons.RetrOryza:水稻长末端重复序列反转录转座子数据库
Nucleic Acids Res. 2007 Jan;35(Database issue):D66-70. doi: 10.1093/nar/gkl780. Epub 2006 Oct 28.
8
MGEScan-non-LTR: computational identification and classification of autonomous non-LTR retrotransposons in eukaryotic genomes.MGEScan-non-LTR:真核生物基因组中自主非 LTR 反转录转座子的计算识别与分类。
Nucleic Acids Res. 2009 Nov;37(21):e143. doi: 10.1093/nar/gkp752.
9
High nucleotide similarity of three lineage LTR retrotransposons among plant genomes.三种植物基因组中 LTR 反转录转座子的核苷酸高度相似性。
Genome. 2023 Mar 1;66(3):51-61. doi: 10.1139/gen-2022-0026. Epub 2023 Jan 9.
10
Genome-wide characterization of LTR retrotransposons in the non-model deep-sea annelid Lamellibrachia luymesi.在非模式深海环节动物 Lamellibrachia luymesi 中进行 LTR 反转录转座子的全基因组特征分析。
BMC Genomics. 2021 Jun 23;22(1):466. doi: 10.1186/s12864-021-07749-1.

引用本文的文献

1
DANTE and DANTE_LTR: lineage-centric annotation pipelines for long terminal repeat retrotransposons in plant genomes.DANTE和DANTE_LTR:用于植物基因组中长末端重复逆转录转座子的以谱系为中心的注释管道。
NAR Genom Bioinform. 2024 Aug 29;6(3):lqae113. doi: 10.1093/nargab/lqae113. eCollection 2024 Sep.
2
The reference genome of an endangered Asteraceae, Deinandra increscens subsp. villosa, endemic to the Central Coast of California.加利福尼亚州中央海岸特有濒危植物旋覆花亚种绒毛变种的参考基因组。
G3 (Bethesda). 2024 Aug 7;14(8). doi: 10.1093/g3journal/jkae117.
3
Profiling genome-wide methylation in two maples: Fine-scale approaches to detection with nanopore technology.

本文引用的文献

1
TERL: classification of transposable elements by convolutional neural networks.TERL:基于卷积神经网络的转座元件分类。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa185.
2
Tandem gene duplications drive divergent evolution of caffeine and crocin biosynthetic pathways in plants.串联基因重复导致植物中咖啡因和藏红花素生物合成途径的分歧进化。
BMC Biol. 2020 Jun 18;18(1):63. doi: 10.1186/s12915-020-00795-3.
3
Environmental stress activation of plant long-terminal repeat retrotransposons.植物长末端重复反转录转座子的环境胁迫激活
两种枫树全基因组甲基化分析:利用纳米孔技术的精细检测方法
Evol Appl. 2024 Apr 17;17(4):e13669. doi: 10.1111/eva.13669. eCollection 2024 Apr.
4
Genomic object detection: An improved approach for transposable elements detection and classification using convolutional neural networks.基因组对象检测:一种使用卷积神经网络改进的转座元件检测和分类方法。
PLoS One. 2023 Sep 21;18(9):e0291925. doi: 10.1371/journal.pone.0291925. eCollection 2023.
5
InpactorDB: A Plant LTR Retrotransposon Reference Library.InpactorDB:植物 LTR 反转座子参考文库。
Methods Mol Biol. 2023;2703:31-44. doi: 10.1007/978-1-0716-3389-2_3.
6
Efficient homology-based annotation of transposable elements using minimizers.使用最小化器对转座元件进行基于同源性的高效注释。
Appl Plant Sci. 2023 May 11;11(4):e11520. doi: 10.1002/aps3.11520. eCollection 2023 Jul-Aug.
7
Lineage-specific amplification and epigenetic regulation of LTR-retrotransposons contribute to the structure, evolution, and function of Fabaceae species.LTR 逆转座子的谱系特异性扩增和表观遗传调控有助于豆科物种的结构、进化和功能。
BMC Genomics. 2023 Jul 27;24(1):423. doi: 10.1186/s12864-023-09530-y.
8
PlantLTRdb: An interactive database for 195 plant species LTR-retrotransposons.植物LTR数据库:一个针对195种植物的LTR反转录转座子的交互式数据库。
Front Plant Sci. 2023 Mar 6;14:1134627. doi: 10.3389/fpls.2023.1134627. eCollection 2023.
9
Inpactor2: a software based on deep learning to identify and classify LTR-retrotransposons in plant genomes.Inpactor2:一款基于深度学习的软件,用于鉴定和分类植物基因组中的 LTR 反转录转座子。
Brief Bioinform. 2023 Jan 19;24(1). doi: 10.1093/bib/bbac511.
10
Impact of LTR-Retrotransposons on Genome Structure, Evolution, and Function in Curcurbitaceae Species.LTR 反转座子对葫芦科物种基因组结构、进化和功能的影响。
Int J Mol Sci. 2022 Sep 5;23(17):10158. doi: 10.3390/ijms231710158.
Funct Plant Biol. 2014 May;41(6):557-567. doi: 10.1071/FP13339.
4
DeepTE: a computational method for de novo classification of transposons with convolutional neural network.DeepTE:一种基于卷积神经网络的转座子从头分类计算方法。
Bioinformatics. 2020 Aug 1;36(15):4269-4275. doi: 10.1093/bioinformatics/btaa519.
5
Exploration of Plastid Phylogenomic Conflict Yields New Insights into the Deep Relationships of Leguminosae.探究质体系统发育基因组冲突为豆科植物的深层关系提供新见解。
Syst Biol. 2020 Jul 1;69(4):613-622. doi: 10.1093/sysbio/syaa013.
6
A systematic review of the application of machine learning in the detection and classification of transposable elements.机器学习在转座元件检测与分类中的应用的系统综述。
PeerJ. 2019 Dec 18;7:e8311. doi: 10.7717/peerj.8311. eCollection 2019.
7
Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline.针对可转座元件注释方法进行基准测试,以创建简化、全面的流水线。
Genome Biol. 2019 Dec 16;20(1):275. doi: 10.1186/s13059-019-1905-y.
8
Diversity, dynamics and effects of long terminal repeat retrotransposons in the model grass Brachypodium distachyon.模式禾本科植物二穗短柄草中长末端重复逆转座子的多样性、动态变化及影响
New Phytol. 2020 Sep;227(6):1736-1748. doi: 10.1111/nph.16308. Epub 2019 Dec 9.
9
Retrotransposons in Plant Genomes: Structure, Identification, and Classification through Bioinformatics and Machine Learning.植物基因组中的逆转座子:通过生物信息学和机器学习进行结构、鉴定和分类。
Int J Mol Sci. 2019 Aug 6;20(15):3837. doi: 10.3390/ijms20153837.
10
Transcriptionally promiscuous "blurry" promoters in Tc1/ transposons allow transcription in distantly related genomes.转座子Tc1/中的转录混杂“模糊”启动子允许在远缘相关基因组中进行转录。
Mob DNA. 2019 Apr 3;10:13. doi: 10.1186/s13100-019-0155-6. eCollection 2019.