• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用自然语言词嵌入技术学习蛋白质结构域的功能语法。

Learning a functional grammar of protein domains using natural language word embedding techniques.

机构信息

Department of Computer Science, University College London, London, UK.

出版信息

Proteins. 2020 Apr;88(4):616-624. doi: 10.1002/prot.25842. Epub 2019 Nov 25.

DOI:10.1002/prot.25842
PMID:31703152
Abstract

In this paper, using Word2vec, a widely-used natural language processing method, we demonstrate that protein domains may have a learnable implicit semantic "meaning" in the context of their functional contributions to the multi-domain proteins in which they are found. Word2vec is a group of models which can be used to produce semantically meaningful embeddings of words or tokens in a fixed-dimension vector space. In this work, we treat multi-domain proteins as "sentences" where domain identifiers are tokens which may be considered as "words." Using all InterPro (Finn et al. 2017) pfam domain assignments we observe that the embedding could be used to suggest putative GO assignments for Pfam (Finn et al. 2016) domains of unknown function.

摘要

在本文中,我们使用广泛应用于自然语言处理的 Word2vec 方法,证明了在多域蛋白质的背景下,蛋白质域可能具有可学习的隐含语义“意义”,在这些蛋白质中,它们具有特定的功能贡献。Word2vec 是一组模型,可用于在固定维度向量空间中为单词或标记生成语义上有意义的嵌入。在这项工作中,我们将多域蛋白质视为“句子”,其中域标识符是可以被视为“单词”的标记。使用所有 InterPro(Finn 等人,2017)pfam 域分配,我们观察到可以使用嵌入来为 Pfam(Finn 等人,2016)的未知功能域建议推测性的 GO 分配。

相似文献

1
Learning a functional grammar of protein domains using natural language word embedding techniques.利用自然语言词嵌入技术学习蛋白质结构域的功能语法。
Proteins. 2020 Apr;88(4):616-624. doi: 10.1002/prot.25842. Epub 2019 Nov 25.
2
Utility of General and Specific Word Embeddings for Classifying Translational Stages of Research.通用和特定词嵌入在研究转化阶段分类中的效用
AMIA Annu Symp Proc. 2018 Dec 5;2018:1405-1414. eCollection 2018.
3
Optimizing Corpus Creation for Training Word Embedding in Low Resource Domains: A Case Study in Autism Spectrum Disorder (ASD).优化低资源领域中训练词嵌入的语料库创建:以自闭症谱系障碍(ASD)为例
AMIA Annu Symp Proc. 2018 Dec 5;2018:508-517. eCollection 2018.
4
A comparison of word embeddings for the biomedical natural language processing.生物医学自然语言处理中词嵌入的比较。
J Biomed Inform. 2018 Nov;87:12-20. doi: 10.1016/j.jbi.2018.09.008. Epub 2018 Sep 12.
5
Vector representations of multi-word terms for semantic relatedness.多词术语的语义关联的向量表示。
J Biomed Inform. 2018 Jan;77:111-119. doi: 10.1016/j.jbi.2017.12.006. Epub 2017 Dec 13.
6
Optimizing word embeddings for small dataset: a case study on patient portal messages from breast cancer patients.优化小数据集的词向量:以乳腺癌患者的患者门户消息为例的研究。
Sci Rep. 2024 Jul 12;14(1):16117. doi: 10.1038/s41598-024-66319-z.
7
Word Embedding for French Natural Language in Healthcare: A Comparative Study.医疗保健领域法语自然语言的词嵌入:一项比较研究。
Stud Health Technol Inform. 2019 Aug 21;264:118-122. doi: 10.3233/SHTI190195.
8
Improving automatic GO annotation with semantic similarity.利用语义相似度提高 GO 自动注释的效果。
BMC Bioinformatics. 2022 Dec 12;23(Suppl 2):433. doi: 10.1186/s12859-022-04958-7.
9
Investigating Correlation between Protein Sequence Similarity and Semantic Similarity Using Gene Ontology Annotations.利用基因本体论注释研究蛋白质序列相似性和语义相似性之间的相关性。
IEEE/ACM Trans Comput Biol Bioinform. 2018 May-Jun;15(3):905-912. doi: 10.1109/TCBB.2017.2695542. Epub 2017 Apr 18.
10
Visualization of medical concepts represented using word embeddings: a scoping review.基于词向量表示的医学概念可视化:范围综述。
BMC Med Inform Decis Mak. 2022 Mar 29;22(1):83. doi: 10.1186/s12911-022-01822-9.

引用本文的文献

1
Bag-of-words is competitive with sum-of-embeddings language-inspired representations on protein inference.词袋模型在蛋白质推理方面与基于语言启发的词嵌入求和表示法具有竞争力。
PLoS One. 2025 Aug 6;20(8):e0325531. doi: 10.1371/journal.pone.0325531. eCollection 2025.
2
Mutations of the brassinosteroid biosynthesis gene HvDWARF5 enable balance between semi-dwarfism and maintenance of grain size in barley.油菜素类固醇生物合成基因HvDWARF5的突变能够实现大麦半矮化与粒重维持之间的平衡。
Physiol Plant. 2025 Mar-Apr;177(2):e70179. doi: 10.1111/ppl.70179.
3
Discovering genomic islands in unannotated bacterial genomes using sequence embedding.
利用序列嵌入在未注释的细菌基因组中发现基因组岛。
Bioinform Adv. 2024 Jun 17;4(1):vbae089. doi: 10.1093/bioadv/vbae089. eCollection 2024.
4
MFIDMA: A Multiple Information Integration Model for the Prediction of Drug-miRNA Associations.MFIDMA:一种用于预测药物与微小RNA关联的多信息整合模型。
Biology (Basel). 2022 Dec 26;12(1):41. doi: 10.3390/biology12010041.
5
Discovery of fibrillar adhesins across bacterial species.发现跨细菌物种的纤维状黏附素。
BMC Genomics. 2021 Jul 18;22(1):550. doi: 10.1186/s12864-021-07586-2.
6
Representation learning applications in biological sequence analysis.生物序列分析中的表示学习应用。
Comput Struct Biotechnol J. 2021 May 23;19:3198-3208. doi: 10.1016/j.csbj.2021.05.039. eCollection 2021.
7
BiG-SLiCE: A highly scalable tool maps the diversity of 1.2 million biosynthetic gene clusters.BiG-SLiCE:一个高度可扩展的工具,可绘制 120 万个生物合成基因簇的多样性图谱。
Gigascience. 2021 Jan 13;10(1). doi: 10.1093/gigascience/giaa154.