• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于邻近性的蛋白质序列分析

Protein Sequence Analysis by Proximities.

作者信息

Schleif Frank-Michael

机构信息

School of Computer Science, University of Birmingham, Birmingham, Edgbaston, B15 2TT, UK.

出版信息

Methods Mol Biol. 2016;1362:185-95. doi: 10.1007/978-1-4939-3106-4_12.

DOI:10.1007/978-1-4939-3106-4_12
PMID:26519178
Abstract

Sequence data are widely used to get a deeper insight into biological systems. From a data analysis perspective they are given as a set of sequences of symbols with varying length. In general they are compared using nonmetric score functions. In this form the data are nonstandard, because they do not provide an immediate metric vector space and their analysis using standard methods is complicated. In this chapter we provide various strategies for how to analyze these type of data in a mathematically accurate way instead of the often seen ad hoc solutions. Our approach is based on the scoring values from protein sequence data although be applicable in a broader sense. We discuss potential recoding concepts of the scores and discuss algorithms to solve clustering, classification and embedding tasks for score data for a protein sequence application.

摘要

序列数据被广泛用于更深入地了解生物系统。从数据分析的角度来看,它们被表示为一组长度各异的符号序列。一般来说,它们是使用非度量评分函数进行比较的。以这种形式呈现的数据是非标准的,因为它们没有提供直接的度量向量空间,并且使用标准方法对其进行分析很复杂。在本章中,我们提供了各种策略,以便以数学上精确的方式分析这类数据,而不是常见的临时解决方案。我们的方法基于蛋白质序列数据的评分值,不过在更广泛的意义上也是适用的。我们讨论了评分的潜在重新编码概念,并讨论了用于解决蛋白质序列应用中评分数据的聚类、分类和嵌入任务的算法。

相似文献

1
Protein Sequence Analysis by Proximities.基于邻近性的蛋白质序列分析
Methods Mol Biol. 2016;1362:185-95. doi: 10.1007/978-1-4939-3106-4_12.
2
Indefinite Proximity Learning: A Review.不确定邻近学习:综述
Neural Comput. 2015 Oct;27(10):2039-96. doi: 10.1162/NECO_a_00770. Epub 2015 Aug 27.
3
Classifying noisy protein sequence data: a case study of immunoglobulin light chains.对有噪声的蛋白质序列数据进行分类:以免疫球蛋白轻链为例
Bioinformatics. 2005 Jun;21 Suppl 1:i495-501. doi: 10.1093/bioinformatics/bti1024.
4
Finding Patterns in Protein Sequences by Using a Hybrid Multiobjective Teaching Learning Based Optimization Algorithm.基于混合多目标教学学习优化算法的蛋白质序列模式发现
IEEE/ACM Trans Comput Biol Bioinform. 2015 May-Jun;12(3):656-66. doi: 10.1109/TCBB.2014.2369043.
5
Discovering sequence motifs.发现序列基序。
Methods Mol Biol. 2008;452:231-51. doi: 10.1007/978-1-60327-159-2_12.
6
Oligo kernels for datamining on biological sequences: a case study on prokaryotic translation initiation sites.用于生物序列数据挖掘的寡核苷酸内核:以原核生物翻译起始位点为例的研究
BMC Bioinformatics. 2004 Oct 28;5:169. doi: 10.1186/1471-2105-5-169.
7
A local alignment metric for accelerating biosequence database search.一种用于加速生物序列数据库搜索的局部比对度量。
J Comput Biol. 2004;11(1):61-82. doi: 10.1089/106652704773416894.
8
Protein remote homology detection based on auto-cross covariance transformation.基于自交协方差变换的蛋白质远程同源检测。
Comput Biol Med. 2011 Aug;41(8):640-7. doi: 10.1016/j.compbiomed.2011.05.015. Epub 2011 Jun 12.
9
Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity.机器学习方法在预测与序列相似性无关的蛋白质功能类别应用中的最新进展。
Proteomics. 2006 Jul;6(14):4023-37. doi: 10.1002/pmic.200500938.
10
Support vector machine learning from heterogeneous data: an empirical analysis using protein sequence and structure.基于异构数据的支持向量机学习:使用蛋白质序列和结构的实证分析
Bioinformatics. 2006 Nov 15;22(22):2753-60. doi: 10.1093/bioinformatics/btl475. Epub 2006 Sep 11.