Suppr超能文献

使用 Python GTF 工具包探索、编辑和利用基因组注释。

Explore, edit and leverage genomic annotations using Python GTF toolkit.

机构信息

Aix Marseille Univ, INSERM, TAGC, UMR U1090, Marseille, France.

The Laboratory of Applied Molecular Biology and Immunology, Tlemcen University, Algeria.

出版信息

Bioinformatics. 2019 Sep 15;35(18):3487-3488. doi: 10.1093/bioinformatics/btz116.

Abstract

MOTIVATION

While Python has become very popular in bioinformatics, a limited number of libraries exist for fast manipulation of gene coordinates in Ensembl GTF format.

RESULTS

We have developed the GTF toolkit Python package (pygtftk), which aims at providing easy and powerful manipulation of gene coordinates in GTF format. For optimal performances, the core engine of pygtftk is a C dynamic library (libgtftk) while the Python API provides usability and readability for developing scripts. Based on this Python package, we have developed the gtftk command line interface that contains 57 sub-commands (v0.9.10) to ease handling of GTF files. These commands may be used to (i) perform basic tasks (e.g. selections, insertions, updates or deletions of features/keys), (ii) select genes/transcripts based on various criteria (e.g. size, exon number, transcription start site location, intron length, GO terms) or (iii) carry out more advanced operations such as coverage analyses of genomic features using bigWig files to create faceted read-coverage diagrams. In conclusion, the pygtftk package greatly simplifies the annotation of GTF files with external information while providing advance tools to perform gene analyses.

AVAILABILITY AND IMPLEMENTATION

pygtftk and gtftk have been tested on Linux and MacOSX and are available from https://github.com/dputhier/pygtftk under the MIT license. The libgtftk dynamic library written in C is available from https://github.com/dputhier/libgtftk.

摘要

动机

尽管 Python 在生物信息学中已经非常流行,但用于快速操作 Ensembl GTF 格式基因坐标的库数量有限。

结果

我们开发了 GTF 工具包 Python 包(pygtftk),旨在提供对 GTF 格式基因坐标的简单而强大的操作。为了获得最佳性能,pygtftk 的核心引擎是一个 C 动态库(libgtftk),而 Python API 为开发脚本提供了可用性和可读性。基于这个 Python 包,我们开发了 gtftk 命令行界面,其中包含 57 个子命令(v0.9.10),以方便处理 GTF 文件。这些命令可用于(i)执行基本任务(例如,特征/键的选择、插入、更新或删除),(ii)根据各种标准(例如,大小、外显子数量、转录起始位点位置、内含子长度、GO 术语)选择基因/转录本,或(iii)执行更高级的操作,例如使用 bigWig 文件对基因组特征进行覆盖分析,以创建分面读取覆盖图。总之,pygtftk 包极大地简化了使用外部信息注释 GTF 文件的过程,同时提供了执行基因分析的高级工具。

可用性和实现

pygtftk 和 gtftk 已在 Linux 和 MacOSX 上进行了测试,并可在 MIT 许可证下从 https://github.com/dputhier/pygtftk 获得。用 C 编写的 libgtftk 动态库可从 https://github.com/dputhier/libgtftk 获得。

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验