AbLang：一种用于完成抗体序列的抗体语言模型。

AbLang: an antibody language model for completing antibody sequences.

作者信息

Olsen Tobias H, Moal Iain H, Deane Charlotte M

机构信息

Department of Statistics, University of Oxford, Oxford OX1 3LB, UK.

GSK Medicines Research Centre, GlaxoSmithKline, Stevenage SG1 2NY, UK.

出版信息

Bioinform Adv. 2022 Jun 17;2(1):vbac046. doi: 10.1093/bioadv/vbac046. eCollection 2022.

DOI:10.1093/bioadv/vbac046

PMID:36699403

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9710568/

Abstract

MOTIVATION

General protein language models have been shown to summarize the semantics of protein sequences into representations that are useful for state-of-the-art predictive methods. However, for antibody specific problems, such as restoring residues lost due to sequencing errors, a model trained solely on antibodies may be more powerful. Antibodies are one of the few protein types where the volume of sequence data needed for such language models is available, e.g. in the Observed Antibody Space (OAS) database.

RESULTS

Here, we introduce AbLang, a language model trained on the antibody sequences in the OAS database. We demonstrate the power of AbLang by using it to restore missing residues in antibody sequence data, a key issue with B-cell receptor repertoire sequencing, e.g. over 40% of OAS sequences are missing the first 15 amino acids. AbLang restores the missing residues of antibody sequences better than using IMGT germlines or the general protein language model ESM-1b. Further, AbLang does not require knowledge of the germline of the antibody and is seven times faster than ESM-1b.

AVAILABILITY AND IMPLEMENTATION

AbLang is a python package available at https://github.com/oxpig/AbLang.

SUPPLEMENTARY INFORMATION

Supplementary data are available at online.

摘要

动机

通用蛋白质语言模型已被证明能够将蛋白质序列的语义总结为对最先进的预测方法有用的表示形式。然而，对于抗体特定问题，例如恢复因测序错误而丢失的残基，仅在抗体上训练的模型可能更强大。抗体是少数几种有足够此类语言模型所需序列数据量的蛋白质类型之一，例如在观察到的抗体空间（OAS）数据库中。

结果

在此，我们介绍AbLang，一种在OAS数据库中的抗体序列上训练的语言模型。我们通过使用AbLang恢复抗体序列数据中缺失的残基来证明其强大功能，这是B细胞受体库测序中的一个关键问题，例如超过40%的OAS序列缺少前15个氨基酸。AbLang在恢复抗体序列缺失残基方面比使用IMGT种系或通用蛋白质语言模型ESM-1b表现更好。此外，AbLang不需要了解抗体的种系，并且比ESM-1b快7倍。

可用性和实现方式

AbLang是一个Python包，可在https://github.com/oxpig/AbLang获取。

补充信息

补充数据可在网上获取。

Suppr 超能文献

文献检索

文件翻译

深度研究

Suppr 超能文献

文献检索

文件翻译

深度研究

AbLang：一种用于完成抗体序列的抗体语言模型。

AbLang: an antibody language model for completing antibody sequences.

作者信息

机构信息

出版信息

MOTIVATION

RESULTS

AVAILABILITY AND IMPLEMENTATION

SUPPLEMENTARY INFORMATION

动机

结果

可用性和实现方式

补充信息

相似文献

引用本文的文献

本文引用的文献

AbLang：一种用于完成抗体序列的抗体语言模型。

AbLang: an antibody language model for completing antibody sequences.

作者信息

机构信息

出版信息

MOTIVATION

RESULTS

AVAILABILITY AND IMPLEMENTATION

SUPPLEMENTARY INFORMATION

动机

结果

可用性和实现方式

补充信息

相似文献

引用本文的文献

本文引用的文献