• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

3gClust:人类蛋白质聚类分析。

3gClust: Human Protein Cluster Analysis.

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2019 Nov-Dec;16(6):1773-1784. doi: 10.1109/TCBB.2018.2840996. Epub 2018 May 30.

DOI:10.1109/TCBB.2018.2840996
PMID:29993556
Abstract

We present a human protein cluster analysis by combining: 1) n-gram based amino acid frequency features, 2) optimal feature selection, 3) hierarchical clustering, and 4) advanced partitioning techniques. Our method qualitatively and quantitatively groups proteins with increasing sequence similarity into similar clusters by calculating the frequency model of amino acids using n-grams. We experiment with n = 1, i.e., unigrams, n = 2, i.e., bigrams, and finally n = 3, i.e., trigrams for optimal selection of features to design the 3gClust algorithm. The benchmarking results on 20,105 manually curated human proteins show that 3gClust ensures better cluster compactness in the case of proteins with similar functional groups, biological processes, structural alignment, and shared domains (e.g., aquaporins, keratins). Quantitative analysis of non singleton clusters shows significant improvement in their compactness in comparison to other state-of-the art methodologies. 3gClust is available at https://sites.google.com/site/bioinfoju/projects/3gclust for academic use along with supplementary materials, which can be found on the Computer Society Digital Library at http://doi.ieeecomputersociety.org/10.1109/TCBB.2018.2840996, and datasets.

摘要

我们通过结合以下方法来进行人类蛋白质聚类分析

1)基于 n-gram 的氨基酸频率特征,2)最优特征选择,3)层次聚类,4)高级分区技术。我们的方法通过使用 n-gram 计算氨基酸的频率模型,定性和定量地将具有递增序列相似性的蛋白质分组到相似的簇中。我们尝试了 n = 1,即单字,n = 2,即双字,最后是 n = 3,即三字,以最优地选择特征来设计 3gClust 算法。在 20105 个人工编辑的人类蛋白质上进行的基准测试结果表明,在具有相似功能组、生物过程、结构比对和共享结构域(例如水通道蛋白、角蛋白)的蛋白质中,3gClust 确保了更好的簇紧凑性。对非单例簇的定量分析表明,与其他最先进的方法相比,它们的紧凑性有了显著提高。3gClust 可在 https://sites.google.com/site/bioinfoju/projects/3gclust 上供学术使用,同时提供补充材料,这些材料可在计算机学会数字图书馆上找到,网址为 http://doi.ieeecomputersociety.org/10.1109/TCBB.2018.2840996,以及数据集。

相似文献

1
3gClust: Human Protein Cluster Analysis.3gClust:人类蛋白质聚类分析。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Nov-Dec;16(6):1773-1784. doi: 10.1109/TCBB.2018.2840996. Epub 2018 May 30.
2
Predicting functional sites with an automated algorithm suitable for heterogeneous datasets.使用适用于异构数据集的自动算法预测功能位点。
BMC Bioinformatics. 2005 May 13;6:116. doi: 10.1186/1471-2105-6-116.
3
Correlation and prediction of gene expression level from amino acid and dipeptide composition of its protein.基于蛋白质的氨基酸和二肽组成对基因表达水平进行相关性分析与预测。
BMC Bioinformatics. 2005 Mar 17;6:59. doi: 10.1186/1471-2105-6-59.
4
Protein contact prediction by integrating deep multiple sequence alignments, coevolution and machine learning.通过整合深度多序列比对、协同进化和机器学习进行蛋白质接触预测。
Proteins. 2018 Mar;86 Suppl 1(Suppl 1):84-96. doi: 10.1002/prot.25405. Epub 2017 Oct 31.
5
A new seed selection algorithm that maximizes local structural similarity in proteins.一种能使蛋白质局部结构相似性最大化的新种子选择算法。
Conf Proc IEEE Eng Med Biol Soc. 2006;2006:5822-5. doi: 10.1109/IEMBS.2006.259338.
6
On the quality of tree-based protein classification.论基于树的蛋白质分类的质量。
Bioinformatics. 2005 May 1;21(9):1876-90. doi: 10.1093/bioinformatics/bti244. Epub 2005 Jan 12.
7
ProFET: Feature engineering captures high-level protein functions.ProFET:特征工程可捕捉高级蛋白质功能。
Bioinformatics. 2015 Nov 1;31(21):3429-36. doi: 10.1093/bioinformatics/btv345. Epub 2015 Jun 30.
8
OXBench: a benchmark for evaluation of protein multiple sequence alignment accuracy.OXBench:一种用于评估蛋白质多序列比对准确性的基准。
BMC Bioinformatics. 2003 Oct 10;4:47. doi: 10.1186/1471-2105-4-47.
9
Super paramagnetic clustering of protein sequences.蛋白质序列的超顺磁聚类
BMC Bioinformatics. 2005 Apr 1;6:82. doi: 10.1186/1471-2105-6-82.
10
Protein Fold Recognition From Sequences Using Convolutional and Recurrent Neural Networks.使用卷积和递归神经网络从序列中识别蛋白质折叠。
IEEE/ACM Trans Comput Biol Bioinform. 2021 Nov-Dec;18(6):2848-2854. doi: 10.1109/TCBB.2020.3012732. Epub 2021 Dec 8.

引用本文的文献

1
DensePPI-2: a bio-inspired update for sequence-based PPI prediction leveraging mutation rates.DensePPI-2:一种受生物启发的基于序列的蛋白质-蛋白质相互作用预测更新方法,利用了突变率。
Brief Bioinform. 2025 Jul 2;26(4). doi: 10.1093/bib/bbaf394.
2
PFP-GO: Integrating protein sequence, domain and protein-protein interaction information for protein function prediction using ranked GO terms.PFP-GO:利用排序后的基因本体(GO)术语整合蛋白质序列、结构域和蛋白质-蛋白质相互作用信息以进行蛋白质功能预测。
Front Genet. 2022 Sep 29;13:969915. doi: 10.3389/fgene.2022.969915. eCollection 2022.
3
RFCM-PALM: In-Silico Prediction of S-Palmitoylation Sites in the Synaptic Proteins for Male/Female Mouse Data.
RFCM-PALM:针对雄性/雌性小鼠数据的突触蛋白中S-棕榈酰化位点的计算机模拟预测
Int J Mol Sci. 2021 Sep 14;22(18):9901. doi: 10.3390/ijms22189901.