• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

关于优化生物数据库中基于距离的相似性搜索

On optimizing distance-based similarity search for biological databases.

作者信息

Mao Rui, Xu Weijia, Ramakrishnan Smriti, Nuckolls Glen, Miranker Daniel P

机构信息

Department of Computer Sciences, Center for Computational Biology and Bioinformatics, University of Texas at Austin, 1 University Station C0500, Austin, TX 78712-0233, USA.

出版信息

Proc IEEE Comput Syst Bioinform Conf. 2005:351-61. doi: 10.1109/csb.2005.42.

DOI:10.1109/csb.2005.42
PMID:16447992
Abstract

Similarity search leveraging distance-based index structures is increasingly being used for both multimedia and biological database applications. We consider distance-based indexing for three important biological data types, protein k-mers with the metric PAM model, DNA k-mers with Hamming distance and peptide fragmentation spectra with a pseudo-metric derived from cosine distance. To date, the primary driver of this research has been multimedia applications, where similarity functions are often Euclidean norms on high dimensional feature vectors. We develop results showing that the character of these biological workloads is different from multimedia workloads. In particular, they are not intrinsically very high dimensional, and deserving different optimization heuristics. Based on MVP-trees, we develop a pivot selection heuristic seeking centers and show it outperforms the most widely used corner seeking heuristic. Similarly, we develop a data partitioning approach sensitive to the actual data distribution in lieu of median splits.

摘要

利用基于距离的索引结构进行相似性搜索越来越多地应用于多媒体和生物数据库应用中。我们考虑对三种重要的生物数据类型进行基于距离的索引,即使用PAM模型度量的蛋白质k聚体、使用汉明距离的DNA k聚体以及使用从余弦距离导出的伪度量的肽片段谱。迄今为止,这项研究的主要驱动力一直是多媒体应用,在多媒体应用中,相似性函数通常是高维特征向量上的欧几里得范数。我们得出的结果表明,这些生物工作负载的特性与多媒体工作负载不同。特别是,它们本质上不是非常高维的,因此需要不同的优化启发式方法。基于MVP树,我们开发了一种寻找中心的枢轴选择启发式方法,并表明它优于最广泛使用的寻找角点启发式方法。同样,我们开发了一种对实际数据分布敏感的数据分区方法,以代替中位数分割。

相似文献

1
On optimizing distance-based similarity search for biological databases.关于优化生物数据库中基于距离的相似性搜索
Proc IEEE Comput Syst Bioinform Conf. 2005:351-61. doi: 10.1109/csb.2005.42.
2
Computational method for temporal pattern discovery in biomedical genomic databases.生物医学基因组数据库中时间模式发现的计算方法。
Proc IEEE Comput Syst Bioinform Conf. 2005:362-5. doi: 10.1109/csb.2005.25.
3
High similarity sequence comparison in clustering large sequence databases.在大型序列数据库聚类中的高相似性序列比较。
Proc IEEE Comput Soc Bioinform Conf. 2002;1:228-36.
4
MetricMap: an embedding technique for processing distance-based queries in metric spaces.
IEEE Trans Syst Man Cybern B Cybern. 2005 Oct;35(5):973-87. doi: 10.1109/tsmcb.2005.848489.
5
Using the blocks database to recognize functional domains.使用模块数据库识别功能域。
Curr Protoc Bioinformatics. 2002 Aug;Chapter 2:Unit 2.2. doi: 10.1002/0471250953.bi0202s00.
6
Vector NTI, a balanced all-in-one sequence analysis suite.Vector NTI,一款功能全面的一体化序列分析套件。
Brief Bioinform. 2004 Dec;5(4):378-88. doi: 10.1093/bib/5.4.378.
7
Towards index-based similarity search for protein structure databases.面向蛋白质结构数据库的基于索引的相似性搜索
Proc IEEE Comput Soc Bioinform Conf. 2003;2:148-58.
8
Grammatical inference in bioinformatics.生物信息学中的语法推断
IEEE Trans Pattern Anal Mach Intell. 2005 Jul;27(7):1051-62. doi: 10.1109/TPAMI.2005.140.
9
Web-based interface facilitating sequence-to-structure analysis of BLAST alignment reports.基于网络的界面,便于对BLAST比对报告进行序列到结构的分析。
Biotechniques. 2005 Aug;39(2):186, 188. doi: 10.2144/05392BM05.
10
Feature selection based on mutual information and redundancy-synergy coefficient.基于互信息和冗余-协同系数的特征选择
J Zhejiang Univ Sci. 2004 Nov;5(11):1382-91. doi: 10.1631/jzus.2004.1382.