• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用改进的 n 元语法和 skip-grams 进行蛋白质分类。

Protein classification using modified n-grams and skip-grams.

机构信息

Institute of Biomedical Studies.

Department of Computer Science.

出版信息

Bioinformatics. 2018 May 1;34(9):1481-1487. doi: 10.1093/bioinformatics/btx823.

DOI:10.1093/bioinformatics/btx823
PMID:29309523
Abstract

MOTIVATION

Classification by supervised machine learning greatly facilitates the annotation of protein characteristics from their primary sequence. However, the feature generation step in this process requires detailed knowledge of attributes used to classify the proteins. Lack of this knowledge risks the selection of irrelevant features, resulting in a faulty model. In this study, we introduce a supervised protein classification method with a novel means of automating the work-intensive feature generation step via a Natural Language Processing (NLP)-dependent model, using a modified combination of n-grams and skip-grams (m-NGSG).

RESULTS

A meta-comparison of cross-validation accuracy with twelve training datasets from nine different published studies demonstrates a consistent increase in accuracy of m-NGSG when compared to contemporary classification and feature generation models. We expect this model to accelerate the classification of proteins from primary sequence data and increase the accessibility of protein characteristic prediction to a broader range of scientists.

AVAILABILITY AND IMPLEMENTATION

m-NGSG is freely available at Bitbucket: https://bitbucket.org/sm_islam/mngsg/src. A web server is available at watson.ecs.baylor.edu/ngsg.

CONTACT

erich_baker@baylor.edu.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

通过有监督的机器学习进行分类极大地促进了从蛋白质的一级序列中注释蛋白质特性。然而,在这个过程中,特征生成步骤需要对用于对蛋白质进行分类的属性有详细的了解。缺乏这些知识会有选择不相关特征的风险,从而导致模型出现错误。在这项研究中,我们介绍了一种有监督的蛋白质分类方法,该方法通过依赖自然语言处理 (NLP) 的模型以新颖的方式自动执行繁琐的特征生成步骤,使用经过修改的 n 元组和跳字 (m-NGSG) 的组合。

结果

通过与来自九个不同已发表研究的十二个训练数据集的交叉验证准确性的元比较,与当代分类和特征生成模型相比,m-NGSG 的准确性一致提高。我们希望该模型能够加速从原始序列数据对蛋白质进行分类,并使更多的科学家能够更容易地预测蛋白质的特性。

可用性和实现

m-NGSG 可在 Bitbucket 上免费获得:https://bitbucket.org/sm_islam/mngsg/src。一个网络服务器可在 watson.ecs.baylor.edu/ngsg 上使用。

联系人

erich_baker@baylor.edu。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
Protein classification using modified n-grams and skip-grams.使用改进的 n 元语法和 skip-grams 进行蛋白质分类。
Bioinformatics. 2018 May 1;34(9):1481-1487. doi: 10.1093/bioinformatics/btx823.
2
Assigning biological function using hidden signatures in cystine-stabilized peptide sequences.利用胱氨酸稳定肽序列中的隐藏特征赋予生物学功能。
Sci Rep. 2018 Jun 13;8(1):9049. doi: 10.1038/s41598-018-27177-8.
3
iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences.iFeature:一个用于从蛋白质和肽序列中提取和选择特征的 Python 包和网络服务器。
Bioinformatics. 2018 Jul 15;34(14):2499-2502. doi: 10.1093/bioinformatics/bty140.
4
DeepGO: predicting protein functions from sequence and interactions using a deep ontology-aware classifier.DeepGO:使用深度本体感知分类器从序列和相互作用预测蛋白质功能。
Bioinformatics. 2018 Feb 15;34(4):660-668. doi: 10.1093/bioinformatics/btx624.
5
DEEPre: sequence-based enzyme EC number prediction by deep learning.DEEPre:基于深度学习的酶 EC 号序列预测。
Bioinformatics. 2018 Mar 1;34(5):760-769. doi: 10.1093/bioinformatics/btx680.
6
Protein contact prediction by integrating joint evolutionary coupling analysis and supervised learning.基于联合进化耦合分析和监督学习的蛋白质接触预测。
Bioinformatics. 2015 Nov 1;31(21):3506-13. doi: 10.1093/bioinformatics/btv472. Epub 2015 Aug 14.
7
SuccFind: a novel succinylation sites online prediction tool via enhanced characteristic strategy.SuccFind:一种通过增强特征策略的新型琥珀酰化位点在线预测工具。
Bioinformatics. 2015 Dec 1;31(23):3748-50. doi: 10.1093/bioinformatics/btv439. Epub 2015 Aug 10.
8
ProFET: Feature engineering captures high-level protein functions.ProFET:特征工程可捕捉高级蛋白质功能。
Bioinformatics. 2015 Nov 1;31(21):3429-36. doi: 10.1093/bioinformatics/btv345. Epub 2015 Jun 30.
9
MetaKTSP: a meta-analytic top scoring pair method for robust cross-study validation of omics prediction analysis.MetaKTSP:一种用于组学预测分析的稳健跨研究验证的元分析最高得分对方法。
Bioinformatics. 2016 Jul 1;32(13):1966-73. doi: 10.1093/bioinformatics/btw115. Epub 2016 Mar 2.
10
QAcon: single model quality assessment using protein structural and contact information with machine learning techniques.QAcon:利用蛋白质结构和接触信息以及机器学习技术进行单模型质量评估。
Bioinformatics. 2017 Feb 15;33(4):586-588. doi: 10.1093/bioinformatics/btw694.

引用本文的文献

1
Generative and Contrastive Self-Supervised Learning for Virulence Factor Identification Based on Protein-Protein Interaction Networks.基于蛋白质-蛋白质相互作用网络的毒力因子识别的生成式和对比式自监督学习
Microorganisms. 2025 Jul 10;13(7):1635. doi: 10.3390/microorganisms13071635.
2
Feature selection enhances peptide binding predictions for TCR-specific interactions.特征选择增强了对TCR特异性相互作用的肽结合预测。
Front Immunol. 2025 Jan 23;15:1510435. doi: 10.3389/fimmu.2024.1510435. eCollection 2024.
3
Feature Selection Enhances Peptide Binding Predictions for TCR-Specific Interactions.
特征选择增强了TCR特异性相互作用的肽结合预测。
bioRxiv. 2024 Oct 13:2024.10.11.617901. doi: 10.1101/2024.10.11.617901.
4
Design and Characterization of a Transcriptional Repression Toolkit for Plants.设计和表征植物转录抑制工具包。
ACS Synth Biol. 2024 Oct 18;13(10):3137-3143. doi: 10.1021/acssynbio.4c00404. Epub 2024 Sep 23.
5
DNA N-gram analysis framework (DNAnamer): A generalized N-gram frequency analysis framework for the supervised classification of DNA sequences.DNA N元语法分析框架(DNAnamer):一种用于DNA序列监督分类的广义N元语法频率分析框架。
Heliyon. 2024 Aug 24;10(17):e36914. doi: 10.1016/j.heliyon.2024.e36914. eCollection 2024 Sep 15.
6
Improvements in viral gene annotation using large language models and soft alignments.利用大型语言模型和软对齐技术改进病毒基因注释。
BMC Bioinformatics. 2024 Apr 25;25(1):165. doi: 10.1186/s12859-024-05779-6.
7
Representation learning applications in biological sequence analysis.生物序列分析中的表示学习应用。
Comput Struct Biotechnol J. 2021 May 23;19:3198-3208. doi: 10.1016/j.csbj.2021.05.039. eCollection 2021.
8
Identification of SARS-CoV-2 origin: Using Ngrams, principal component analysis and Random Forest algorithm.严重急性呼吸综合征冠状病毒2(SARS-CoV-2)起源的鉴定:使用词频统计、主成分分析和随机森林算法
Inform Med Unlocked. 2021;24:100577. doi: 10.1016/j.imu.2021.100577. Epub 2021 Apr 20.
9
Prediction of G Protein-Coupled Receptors With CTDC Extraction and MRMD2.0 Dimension-Reduction Methods.基于CTDC提取和MRMD2.0降维方法的G蛋白偶联受体预测
Front Bioeng Biotechnol. 2020 Jun 25;8:635. doi: 10.3389/fbioe.2020.00635. eCollection 2020.
10
Probabilistic variable-length segmentation of protein sequences for discriminative motif discovery (DiMotif) and sequence embedding (ProtVecX).蛋白质序列的概率可变长度分割用于判别基序发现 (DiMotif) 和序列嵌入 (ProtVecX)。
Sci Rep. 2019 Mar 5;9(1):3577. doi: 10.1038/s41598-019-38746-w.