• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

快速T细胞受体与ting相互作用分组

Rapid T-cell receptor interaction grouping with ting.

作者信息

Mölder Felix, Stervbo Ulrik, Loyal Lucie, Bacher Petra, Babel Nina, Rahmann Sven

机构信息

Genome Informatics, Institute of Human Genetics, University of Duisburg-Essen, 45147 Essen, Germany.

Institute of Pathology, University of Duisburg-Essen, 45147 Essen, Germany.

出版信息

Bioinformatics. 2021 Oct 25;37(20):3444-3448. doi: 10.1093/bioinformatics/btab361.

DOI:10.1093/bioinformatics/btab361
PMID:33983394
Abstract

MOTIVATION

Clustering T-cell receptor repertoire (TCRR) sequences according to antigen specificity is challenging. The previously published tool GLIPH needs several days to weeks for clustering large repertoires, making its use impractical in larger studies. In addition, the methodology used in GLIPH suffers from shortcomings, including non-determinism, potential loss of significant antigen-specific sequences or inclusion of too many unspecific sequences.

RESULTS

We present an algorithm for clustering TCRR sequences that scales efficiently to large repertoires. We clustered 36 real datasets with up to 62 000 unique CDR3β sequences using both an implementation of our method called ting, GLIPH and its successor GLIPH2. While GLIPH required multiple weeks, ting only needed about one minute for the same task. GLIPH2 is comparably fast, but uses a different grouping paradigm. In addition, we found that in naïve repertoires, where no or very few antigen-specific CDR3 sequences or clusters should exist, our method indeed selects much fewer motifs and produces smaller clusters.

AVAILABILITY AND IMPLEMENTATION

Our method has been implemented in Python as a tool called ting. It is available from GitHub (https://github.com/FelixMoelder/ting) or PyPI under the MIT license.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

根据抗原特异性对T细胞受体库(TCRR)序列进行聚类具有挑战性。先前发布的工具GLIPH对大型库进行聚类需要数天到数周的时间,这使得它在更大规模的研究中不实用。此外,GLIPH中使用的方法存在缺陷,包括不确定性、可能丢失重要的抗原特异性序列或包含过多非特异性序列。

结果

我们提出了一种对TCRR序列进行聚类的算法,该算法能够有效地扩展到大型库。我们使用我们称为ting的方法实现、GLIPH及其后续版本GLIPH2对36个真实数据集进行了聚类,这些数据集包含多达62000个独特的CDR3β序列。GLIPH需要数周时间,而ting完成相同任务仅需约一分钟。GLIPH2速度相当,但使用不同的分组范式。此外,我们发现,在未成熟库中,应该不存在或只有很少的抗原特异性CDR3序列或簇,我们的方法确实选择了少得多的基序并产生了更小的簇。

可用性和实现

我们的方法已用Python实现为一个名为ting的工具。它可从GitHub(https://github.com/FelixMoelder/ting)或PyPI获得,遵循MIT许可。

补充信息

补充数据可在《生物信息学》在线获取。

相似文献

1
Rapid T-cell receptor interaction grouping with ting.快速T细胞受体与ting相互作用分组
Bioinformatics. 2021 Oct 25;37(20):3444-3448. doi: 10.1093/bioinformatics/btab361.
2
ClusTCR: a python interface for rapid clustering of large sets of CDR3 sequences with unknown antigen specificity.ClusTCR:一种用于快速聚类具有未知抗原特异性的大量 CDR3 序列的 Python 接口。
Bioinformatics. 2021 Dec 11;37(24):4865-4867. doi: 10.1093/bioinformatics/btab446.
3
Clustering based approach for population level identification of condition-associated T-cell receptor β-chain CDR3 sequences.基于聚类的方法用于鉴定与疾病相关的 T 细胞受体 β 链 CDR3 序列的群体水平。
BMC Bioinformatics. 2021 Mar 25;22(1):159. doi: 10.1186/s12859-021-04087-7.
4
Tracking global changes induced in the CD4 T-cell receptor repertoire by immunization with a complex antigen using short stretches of CDR3 protein sequence.使用 CDR3 蛋白序列短片段免疫接种复杂抗原诱导 CD4 T 细胞受体库中全球变化的跟踪。
Bioinformatics. 2014 Nov 15;30(22):3181-8. doi: 10.1093/bioinformatics/btu523. Epub 2014 Aug 5.
5
Hammock: a hidden Markov model-based peptide clustering algorithm to identify protein-interaction consensus motifs in large datasets.吊床:一种基于隐马尔可夫模型的肽聚类算法,用于在大型数据集中识别蛋白质相互作用共有基序。
Bioinformatics. 2016 Jan 1;32(1):9-16. doi: 10.1093/bioinformatics/btv522. Epub 2015 Sep 5.
6
PERF: an exhaustive algorithm for ultra-fast and efficient identification of microsatellites from large DNA sequences.PERF:一种从大型 DNA 序列中进行超快速和高效微卫星识别的穷举算法。
Bioinformatics. 2018 Mar 15;34(6):943-948. doi: 10.1093/bioinformatics/btx721.
7
Feature selection using a one dimensional naïve Bayes' classifier increases the accuracy of support vector machine classification of CDR3 repertoires.使用一维朴素贝叶斯分类器进行特征选择可提高CDR3谱系支持向量机分类的准确性。
Bioinformatics. 2017 Apr 1;33(7):951-955. doi: 10.1093/bioinformatics/btw771.
8
Identifying specificity groups in the T cell receptor repertoire.识别T细胞受体库中的特异性组。
Nature. 2017 Jul 6;547(7661):94-98. doi: 10.1038/nature22976. Epub 2017 Jun 21.
9
On the viability of unsupervised T-cell receptor sequence clustering for epitope preference.基于无监督的 T 细胞受体序列聚类进行表位偏好分析的可行性。
Bioinformatics. 2019 May 1;35(9):1461-1468. doi: 10.1093/bioinformatics/bty821.
10
Grouping T-Cell Antigen Receptors by Specificity.按特异性对 T 细胞抗原受体进行分组。
Methods Mol Biol. 2022;2574:291-307. doi: 10.1007/978-1-0716-2712-9_15.