• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

PCP-ML:用于机器学习的蛋白质表征软件包。

PCP-ML: protein characterization package for machine learning.

作者信息

Eickholt Jesse, Wang Zheng

机构信息

Department of Computer Science, Central Michigan University, Mount Pleasant, MI 48859, USA.

出版信息

BMC Res Notes. 2014 Nov 18;7:810. doi: 10.1186/1756-0500-7-810.

DOI:10.1186/1756-0500-7-810
PMID:25406415
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4246511/
Abstract

BACKGROUND

Machine Learning (ML) has a number of demonstrated applications in protein prediction tasks such as protein structure prediction. To speed further development of machine learning based tools and their release to the community, we have developed a package which characterizes several aspects of a protein commonly used for protein prediction tasks with machine learning.

FINDINGS

A number of software libraries and modules exist for handling protein related data. The package we present in this work, PCP-ML, is unique in its small footprint and emphasis on machine learning. Its primary focus is on characterizing various aspects of a protein through sets of numerical data. The generated data can then be used with machine learning tools and/or techniques. PCP-ML is very flexible in how the generated data is formatted and as a result is compatible with a variety of existing machine learning packages. Given its small size, it can be directly packaged and distributed with community developed tools for protein prediction tasks.

CONCLUSIONS

Source code and example programs are available under a BSD license at http://mlid.cps.cmich.edu/eickh1jl/tools/PCPML/. The package is implemented in C++ and accessible as a Python module.

摘要

背景

机器学习(ML)在蛋白质预测任务(如蛋白质结构预测)中已有许多已证实的应用。为了加速基于机器学习的工具的进一步开发并将其发布给社区,我们开发了一个软件包,该软件包可表征蛋白质的多个方面,这些方面常用于机器学习的蛋白质预测任务。

研究结果

存在许多用于处理蛋白质相关数据的软件库和模块。我们在这项工作中展示的软件包PCP-ML,其独特之处在于占用空间小且侧重于机器学习。它的主要重点是通过数值数据集来表征蛋白质的各个方面。然后,生成的数据可与机器学习工具和/或技术一起使用。PCP-ML在生成数据的格式化方式上非常灵活,因此与各种现有的机器学习软件包兼容。鉴于其规模小,可以直接与社区开发的蛋白质预测任务工具一起打包和分发。

结论

源代码和示例程序可在http://mlid.cps.cmich.edu/eickh1jl/tools/PCPML/ 以BSD许可获取。该软件包用C++实现,并可作为Python模块访问。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3985/4246511/fe3d97ca6f8c/13104_2014_3335_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3985/4246511/bc7b15a80b18/13104_2014_3335_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3985/4246511/fe3d97ca6f8c/13104_2014_3335_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3985/4246511/bc7b15a80b18/13104_2014_3335_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3985/4246511/fe3d97ca6f8c/13104_2014_3335_Fig2_HTML.jpg

相似文献

1
PCP-ML: protein characterization package for machine learning.PCP-ML:用于机器学习的蛋白质表征软件包。
BMC Res Notes. 2014 Nov 18;7:810. doi: 10.1186/1756-0500-7-810.
2
Protein function prediction with high-throughput data.利用高通量数据进行蛋白质功能预测。
Amino Acids. 2008 Oct;35(3):517-30. doi: 10.1007/s00726-008-0077-y. Epub 2008 Apr 22.
3
A machine learning based method for the prediction of secretory proteins using amino acid composition, their order and similarity-search.一种基于机器学习的方法,利用氨基酸组成、顺序和相似性搜索来预测分泌蛋白。
In Silico Biol. 2008;8(2):129-40.
4
Validating module network learning algorithms using simulated data.使用模拟数据验证模块网络学习算法。
BMC Bioinformatics. 2007 May 3;8 Suppl 2(Suppl 2):S5. doi: 10.1186/1471-2105-8-S2-S5.
5
Accurate prediction of stability changes in protein mutants by combining machine learning with structure based computational mutagenesis.通过将机器学习与基于结构的计算诱变相结合,准确预测蛋白质突变体的稳定性变化。
Bioinformatics. 2008 Sep 15;24(18):2002-9. doi: 10.1093/bioinformatics/btn353. Epub 2008 Jul 16.
6
A survey of machine learning methods for secondary and supersecondary protein structure prediction.用于二级和超二级蛋白质结构预测的机器学习方法综述。
Methods Mol Biol. 2013;932:87-106. doi: 10.1007/978-1-62703-065-6_6.
7
Machine learning: an indispensable tool in bioinformatics.机器学习:生物信息学中不可或缺的工具。
Methods Mol Biol. 2010;593:25-48. doi: 10.1007/978-1-60327-194-3_2.
8
Prediction of turn types in protein structure by machine-learning classifiers.通过机器学习分类器预测蛋白质结构中的转角类型。
Proteins. 2009 Feb 1;74(2):344-52. doi: 10.1002/prot.22164.
9
A Protein Classification Benchmark collection for machine learning.一个用于机器学习的蛋白质分类基准数据集。
Nucleic Acids Res. 2007 Jan;35(Database issue):D232-6. doi: 10.1093/nar/gkl812. Epub 2006 Nov 16.
10
Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity.机器学习方法在预测与序列相似性无关的蛋白质功能类别应用中的最新进展。
Proteomics. 2006 Jul;6(14):4023-37. doi: 10.1002/pmic.200500938.

本文引用的文献

1
DNdisorder: predicting protein disorder using boosting and deep networks.DNdisorder:使用提升和深度网络预测蛋白质无序性。
BMC Bioinformatics. 2013 Mar 6;14:88. doi: 10.1186/1471-2105-14-88.
2
Designing and benchmarking the MULTICOM protein structure prediction system.设计并对MULTICOM蛋白质结构预测系统进行基准测试。
BMC Struct Biol. 2013 Feb 27;13:2. doi: 10.1186/1472-6807-13-2.
3
Predicting protein residue-residue contacts using deep networks and boosting.利用深度网络和提升技术预测蛋白质残基残基接触
Bioinformatics. 2012 Dec 1;28(23):3066-72. doi: 10.1093/bioinformatics/bts598. Epub 2012 Oct 9.
4
Deep architectures for protein contact map prediction.用于蛋白质接触图预测的深度架构。
Bioinformatics. 2012 Oct 1;28(19):2449-57. doi: 10.1093/bioinformatics/bts475. Epub 2012 Jul 30.
5
ESpritz: accurate and fast prediction of protein disorder.ESpritz:准确快速预测蛋白质无序性。
Bioinformatics. 2012 Feb 15;28(4):503-9. doi: 10.1093/bioinformatics/btr682. Epub 2011 Dec 20.
6
Automated protein structure modeling in CASP9 by I-TASSER pipeline combined with QUARK-based ab initio folding and FG-MD-based structure refinement.CASP9 中通过 I-TASSER 流水线结合 QUARK 基于从头折叠和 FG-MD 基于结构精修的自动化蛋白质结构建模。
Proteins. 2011;79 Suppl 10(Suppl 10):147-60. doi: 10.1002/prot.23111. Epub 2011 Aug 23.
7
APOLLO: a quality assessment service for single and multiple protein models.APOLLO:用于单蛋白模型和多蛋白模型的质量评估服务。
Bioinformatics. 2011 Jun 15;27(12):1715-6. doi: 10.1093/bioinformatics/btr268. Epub 2011 May 5.
8
ESBTL: efficient PDB parser and data structure for the structural and geometric analysis of biological macromolecules.ESBTL:高效的 PDB 解析器和数据结构,用于生物大分子的结构和几何分析。
Bioinformatics. 2010 Apr 15;26(8):1127-8. doi: 10.1093/bioinformatics/btq083. Epub 2010 Feb 24.
9
Biopython: freely available Python tools for computational molecular biology and bioinformatics.Biopython:用于计算分子生物学和生物信息学的免费可用Python工具。
Bioinformatics. 2009 Jun 1;25(11):1422-3. doi: 10.1093/bioinformatics/btp163. Epub 2009 Mar 20.
10
SeqAn an efficient, generic C++ library for sequence analysis.SeqAn是一个用于序列分析的高效、通用的C++库。
BMC Bioinformatics. 2008 Jan 9;9:11. doi: 10.1186/1471-2105-9-11.