Suppr超能文献

利用自然语言处理破译微生物基因功能。

Deciphering microbial gene function using natural language processing.

机构信息

The Shmunis School of Biomedicine and Cancer Research, George S. Wise Faculty of Life Sciences, Tel-Aviv University, Tel-Aviv, 6997801, Israel.

出版信息

Nat Commun. 2022 Sep 29;13(1):5731. doi: 10.1038/s41467-022-33397-4.

Abstract

Revealing the function of uncharacterized genes is a fundamental challenge in an era of ever-increasing volumes of sequencing data. Here, we present a concept for tackling this challenge using deep learning methodologies adopted from natural language processing (NLP). We repurpose NLP algorithms to model "gene semantics" based on a biological corpus of more than 360 million microbial genes within their genomic context. We use the language models to predict functional categories for 56,617 genes and find that out of 1369 genes associated with recently discovered defense systems, 98% are inferred correctly. We then systematically evaluate the "discovery potential" of different functional categories, pinpointing those with the most genes yet to be characterized. Finally, we demonstrate our method's ability to discover systems associated with microbial interaction and defense. Our results highlight that combining microbial genomics and language models is a promising avenue for revealing gene functions in microbes.

摘要

揭示未知基因的功能是当前测序数据不断增加时代的一个基本挑战。在这里,我们提出了一个使用自然语言处理 (NLP) 方法的概念来应对这一挑战。我们重新利用 NLP 算法,根据超过 3.6 亿个微生物基因在其基因组背景下的生物语料库,对“基因语义”进行建模。我们使用语言模型来预测 56617 个基因的功能类别,并发现 1369 个与最近发现的防御系统相关的基因中,有 98%的基因被正确推断。然后,我们系统地评估了不同功能类别的“发现潜力”,确定了那些具有最多尚未被描述的基因的类别。最后,我们展示了我们的方法发现与微生物相互作用和防御相关系统的能力。我们的结果表明,将微生物基因组学和语言模型相结合是揭示微生物基因功能的一种很有前途的途径。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b203/9523054/054ae3097971/41467_2022_33397_Fig1_HTML.jpg

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验