• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用 Python GTF 工具包探索、编辑和利用基因组注释。

Explore, edit and leverage genomic annotations using Python GTF toolkit.

机构信息

Aix Marseille Univ, INSERM, TAGC, UMR U1090, Marseille, France.

The Laboratory of Applied Molecular Biology and Immunology, Tlemcen University, Algeria.

出版信息

Bioinformatics. 2019 Sep 15;35(18):3487-3488. doi: 10.1093/bioinformatics/btz116.

DOI:10.1093/bioinformatics/btz116
PMID:30768152
Abstract

MOTIVATION

While Python has become very popular in bioinformatics, a limited number of libraries exist for fast manipulation of gene coordinates in Ensembl GTF format.

RESULTS

We have developed the GTF toolkit Python package (pygtftk), which aims at providing easy and powerful manipulation of gene coordinates in GTF format. For optimal performances, the core engine of pygtftk is a C dynamic library (libgtftk) while the Python API provides usability and readability for developing scripts. Based on this Python package, we have developed the gtftk command line interface that contains 57 sub-commands (v0.9.10) to ease handling of GTF files. These commands may be used to (i) perform basic tasks (e.g. selections, insertions, updates or deletions of features/keys), (ii) select genes/transcripts based on various criteria (e.g. size, exon number, transcription start site location, intron length, GO terms) or (iii) carry out more advanced operations such as coverage analyses of genomic features using bigWig files to create faceted read-coverage diagrams. In conclusion, the pygtftk package greatly simplifies the annotation of GTF files with external information while providing advance tools to perform gene analyses.

AVAILABILITY AND IMPLEMENTATION

pygtftk and gtftk have been tested on Linux and MacOSX and are available from https://github.com/dputhier/pygtftk under the MIT license. The libgtftk dynamic library written in C is available from https://github.com/dputhier/libgtftk.

摘要

动机

尽管 Python 在生物信息学中已经非常流行,但用于快速操作 Ensembl GTF 格式基因坐标的库数量有限。

结果

我们开发了 GTF 工具包 Python 包(pygtftk),旨在提供对 GTF 格式基因坐标的简单而强大的操作。为了获得最佳性能,pygtftk 的核心引擎是一个 C 动态库(libgtftk),而 Python API 为开发脚本提供了可用性和可读性。基于这个 Python 包,我们开发了 gtftk 命令行界面,其中包含 57 个子命令(v0.9.10),以方便处理 GTF 文件。这些命令可用于(i)执行基本任务(例如,特征/键的选择、插入、更新或删除),(ii)根据各种标准(例如,大小、外显子数量、转录起始位点位置、内含子长度、GO 术语)选择基因/转录本,或(iii)执行更高级的操作,例如使用 bigWig 文件对基因组特征进行覆盖分析,以创建分面读取覆盖图。总之,pygtftk 包极大地简化了使用外部信息注释 GTF 文件的过程,同时提供了执行基因分析的高级工具。

可用性和实现

pygtftk 和 gtftk 已在 Linux 和 MacOSX 上进行了测试,并可在 MIT 许可证下从 https://github.com/dputhier/pygtftk 获得。用 C 编写的 libgtftk 动态库可从 https://github.com/dputhier/libgtftk 获得。

相似文献

1
Explore, edit and leverage genomic annotations using Python GTF toolkit.使用 Python GTF 工具包探索、编辑和利用基因组注释。
Bioinformatics. 2019 Sep 15;35(18):3487-3488. doi: 10.1093/bioinformatics/btz116.
2
GFF Utilities: GffRead and GffCompare.
F1000Res. 2020 Apr 28;9. doi: 10.12688/f1000research.23297.2. eCollection 2020.
3
OLOGRAM: Determining significance of total overlap length between genomic regions sets.重叠图:确定基因组区域集之间总重叠长度的显著性。
Bioinformatics. 2019 Nov 5. doi: 10.1093/bioinformatics/btz810.
4
A fast and efficient python library for interfacing with the Biological Magnetic Resonance Data Bank.一个用于与生物磁共振数据库接口的快速高效的Python库。
BMC Bioinformatics. 2017 Mar 17;18(1):175. doi: 10.1186/s12859-017-1580-5.
5
GAD: A Python Script for Dividing Genome Annotation Files into Feature-Based Files.GAD:一个用于将基因组注释文件按特征分割为文件的 Python 脚本。
Interdiscip Sci. 2020 Sep;12(3):377-381. doi: 10.1007/s12539-020-00378-4. Epub 2020 Jun 10.
6
pyBedGraph: a python package for fast operations on 1D genomic signal tracks.pyBedGraph:一个用于快速操作一维基因组信号轨迹的 Python 包。
Bioinformatics. 2020 May 1;36(10):3234-3235. doi: 10.1093/bioinformatics/btaa061.
7
PyRanges: efficient comparison of genomic intervals in Python.PyRanges:在 Python 中高效比较基因组区间。
Bioinformatics. 2020 Feb 1;36(3):918-919. doi: 10.1093/bioinformatics/btz615.
8
hictk: blazing fast toolkit to work with .hic and .cool files.hicTK:用于处理.hic 和.cool 文件的快速工具包。
Bioinformatics. 2024 Jul 1;40(7). doi: 10.1093/bioinformatics/btae408.
9
Pygenomics: manipulating genomic intervals and data files in Python.Pygenomics:在 Python 中操作基因组区间和数据文件。
Bioinformatics. 2023 Jun 1;39(6). doi: 10.1093/bioinformatics/btad346.
10
Pybedtools: a flexible Python library for manipulating genomic datasets and annotations.Pybedtools:一个灵活的 Python 库,用于操作基因组数据集和注释。
Bioinformatics. 2011 Dec 15;27(24):3423-4. doi: 10.1093/bioinformatics/btr539. Epub 2011 Sep 23.

引用本文的文献

1
Studying relative RNA localization from nucleus to the cytosol.研究相关RNA从细胞核到细胞质的定位。
NAR Genom Bioinform. 2025 Jun 20;7(2):lqaf032. doi: 10.1093/nargab/lqaf032. eCollection 2025 Jun.
2
Rate of de novo mutations in the three-spined stickleback.三刺鱼的新生突变率。
Heredity (Edinb). 2025 Jun 12. doi: 10.1038/s41437-025-00767-9.
3
Studying relative RNA localization From nucleus to the cytosol.研究从细胞核到细胞质的相关RNA定位
bioRxiv. 2024 Mar 11:2024.03.06.583744. doi: 10.1101/2024.03.06.583744.
4
Short tandem repeats are important contributors to silencer elements in T cells.短串联重复序列是 T 细胞沉默元件的重要组成部分。
Nucleic Acids Res. 2023 Jun 9;51(10):4845-4866. doi: 10.1093/nar/gkad187.
5
Assessing and assuring interoperability of a genomics file format.评估和确保基因组文件格式的互操作性。
Bioinformatics. 2022 Jun 27;38(13):3327-3336. doi: 10.1093/bioinformatics/btac327.
6
: mining enriched -wise combinations of genomic features with Monte Carlo and dictionary learning.利用蒙特卡洛方法和字典学习挖掘基因组特征的富集组合。
NAR Genom Bioinform. 2021 Dec 22;3(4):lqab114. doi: 10.1093/nargab/lqab114. eCollection 2021 Dec.
7
Epromoters function as a hub to recruit key transcription factors required for the inflammatory response.启动子作为一个枢纽,招募炎症反应所需的关键转录因子。
Nat Commun. 2021 Nov 18;12(1):6660. doi: 10.1038/s41467-021-26861-0.
8
UniBind: maps of high-confidence direct TF-DNA interactions across nine species.UniBind:九个物种中高可信度直接 TF-DNA 相互作用的图谱。
BMC Genomics. 2021 Jun 26;22(1):482. doi: 10.1186/s12864-021-07760-6.
9
HAPHPIPE: Haplotype Reconstruction and Phylodynamics for Deep Sequencing of Intrahost Viral Populations.HAPHPIPE:用于深度测序宿主内病毒群体的单倍型重建和系统发生分析。
Mol Biol Evol. 2021 Apr 13;38(4):1677-1690. doi: 10.1093/molbev/msaa315.
10
Blueprint of human thymopoiesis reveals molecular mechanisms of stage-specific TCR enhancer activation.人类胸腺发生蓝图揭示了阶段特异性 TCR 增强子激活的分子机制。
J Exp Med. 2020 Sep 7;217(9). doi: 10.1084/jem.20192360.