• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于生物序列比较的保证相似性度量学习框架。

A Guaranteed Similarity Metric Learning Framework for Biological Sequence Comparison.

作者信息

Hua Keru, Yu Qin, Zhang Ruiming

出版信息

IEEE/ACM Trans Comput Biol Bioinform. 2016 Sep-Oct;13(5):868-877. doi: 10.1109/TCBB.2015.2495186. Epub 2015 Oct 26.

DOI:10.1109/TCBB.2015.2495186
PMID:26529778
Abstract

Similarity of sequences is a key mathematical notion for Classification and Phylogenetic studies in Biology. The distance and similarity between two sequence are very important and widely studied. During the last decades, Similarity(distance) metric learning is one of the hottest topics of machine learning/data mining as well as their applications in the bioinformatics field. It is feasible to introduce machine learning technology to learn similarity metric from biological data. In this paper, we propose a novel framework of guaranteed similarity metric learning (GMSL) to perform alignment of biology sequences in any feature vector space. It introduces the (ϵ, γ, τ)-goodness similarity theory to Mahalanobis metric learning. As a theoretical guaranteed similarity metric learning approach, GMSL guarantees that the learned similarity function performs well in classification and clustering. Our experiments on the most used datasets demonstrate that our approach outperforms the state-of-the-art biological sequences alignment methods and other similarity metric learning algorithms in both accuracy and stability.

摘要

序列相似性是生物学中分类和系统发育研究的关键数学概念。两个序列之间的距离和相似性非常重要且受到广泛研究。在过去几十年中,相似性(距离)度量学习是机器学习/数据挖掘及其在生物信息学领域应用中最热门的话题之一。引入机器学习技术从生物数据中学习相似性度量是可行的。在本文中,我们提出了一种新颖的保证相似性度量学习(GMSL)框架,用于在任何特征向量空间中进行生物序列比对。它将(ϵ, γ, τ)-优度相似性理论引入马氏距离度量学习。作为一种具有理论保证的相似性度量学习方法,GMSL保证所学习的相似性函数在分类和聚类中表现良好。我们在最常用数据集上的实验表明,我们的方法在准确性和稳定性方面均优于当前最先进的生物序列比对方法和其他相似性度量学习算法。

相似文献

1
A Guaranteed Similarity Metric Learning Framework for Biological Sequence Comparison.一种用于生物序列比较的保证相似性度量学习框架。
IEEE/ACM Trans Comput Biol Bioinform. 2016 Sep-Oct;13(5):868-877. doi: 10.1109/TCBB.2015.2495186. Epub 2015 Oct 26.
2
Classification of imbalanced bioinformatics data by using boundary movement-based ELM.基于边界移动的极限学习机对不平衡生物信息学数据的分类
Biomed Mater Eng. 2015;26 Suppl 1:S1855-62. doi: 10.3233/BME-151488.
3
Weighted quality estimates in machine learning.机器学习中的加权质量估计
Bioinformatics. 2006 Nov 1;22(21):2597-603. doi: 10.1093/bioinformatics/btl458. Epub 2006 Aug 25.
4
Mining Contiguous Sequential Generators in Biological Sequences.挖掘生物序列中的连续序列生成器
IEEE/ACM Trans Comput Biol Bioinform. 2016 Sep-Oct;13(5):855-867. doi: 10.1109/TCBB.2015.2495132. Epub 2015 Oct 26.
5
A comparative analysis of multiple sequence alignments for biological data.生物数据多序列比对的比较分析。
Biomed Mater Eng. 2015;26 Suppl 1:S1781-9. doi: 10.3233/BME-151479.
6
On optimizing distance-based similarity search for biological databases.关于优化生物数据库中基于距离的相似性搜索
Proc IEEE Comput Syst Bioinform Conf. 2005:351-61. doi: 10.1109/csb.2005.42.
7
High similarity sequence comparison in clustering large sequence databases.在大型序列数据库聚类中的高相似性序列比较。
Proc IEEE Comput Soc Bioinform Conf. 2002;1:228-36.
8
Constrained Metric Learning by Permutation Inducing Isometries.通过排列诱导等距的约束度量学习。
IEEE Trans Image Process. 2016 Jan;25(1):92-103. doi: 10.1109/TIP.2015.2502144. Epub 2015 Nov 19.
9
Grammatical inference in bioinformatics.生物信息学中的语法推断
IEEE Trans Pattern Anal Mach Intell. 2005 Jul;27(7):1051-62. doi: 10.1109/TPAMI.2005.140.
10
LogDet divergence-based metric learning with triplet constraints and its applications.基于对数行列式散度的三重约束度量学习及其应用。
IEEE Trans Image Process. 2014 Nov;23(11):4920-31. doi: 10.1109/TIP.2014.2359765.

引用本文的文献

1
Machine learning-based chemical binding similarity using evolutionary relationships of target genes.基于机器学习的化学结合相似性,利用靶基因的进化关系。
Nucleic Acids Res. 2019 Nov 18;47(20):e128. doi: 10.1093/nar/gkz743.
2
Analyzing similarities in genome sequences.分析基因组序列中的相似性。
Eur Phys J E Soft Matter. 2018 Jan 19;41(1):8. doi: 10.1140/epje/i2018-11609-8.