• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

ClusterSheep:一种用于从 shotgun 蛋白质组学中大规模聚类串联质谱的图形处理单元加速软件工具。

ClusterSheep: A Graphics Processing Unit-Accelerated Software Tool for Large-Scale Clustering of Tandem Mass Spectra from Shotgun Proteomics.

机构信息

Department of Chemical and Biological Engineering, The Hong Kong University of Science and Technology, Clear Water Bay, Hong Kong.

出版信息

J Proteome Res. 2021 Dec 3;20(12):5359-5367. doi: 10.1021/acs.jproteome.1c00485. Epub 2021 Nov 4.

DOI:10.1021/acs.jproteome.1c00485
PMID:34734728
Abstract

Modern shotgun proteomics experiments generate gigabytes of spectra every hour, only a fraction of which were utilized to form biological conclusions. Instead of being stored as flat files in public data repositories, this large amount of data can be better organized to facilitate data reuse. Clustering these spectra by similarity can be helpful in building high-quality spectral libraries, correcting identification errors, and highlighting frequently observed but unidentified spectra. However, large-scale clustering is time-consuming. Here, we present ClusterSheep, a method utilizing Graphics Processing Units (GPUs) to accelerate the process. Unlike previously proposed algorithms for this purpose, our method performs true pairwise comparison of all spectra within a precursor mass-to-charge ratio tolerance, thereby preserving the full cluster structures. ClusterSheep was benchmarked against previously reported clustering tools, MS-Cluster, MaRaCluster, and msCRUSH. The software tool also functions as an interactive visualization tool with a persistent state, enabling the user to explore the resulting clusters visually and retrieve the clustering results as desired.

摘要

现代 shotgun 蛋白质组学实验每小时生成数 Gb 的谱图,其中只有一小部分被用于形成生物学结论。与其作为平面文件存储在公共数据存储库中,不如更好地组织这些大量数据,以方便数据重用。通过相似性对这些谱图进行聚类有助于构建高质量的光谱库、纠正鉴定错误,并突出经常观察到但未识别的谱图。然而,大规模聚类是耗时的。在这里,我们提出了 ClusterSheep,一种利用图形处理单元 (GPU) 来加速该过程的方法。与为此目的提出的先前算法不同,我们的方法在母离子质量电荷比容限内对所有谱图执行真正的两两比较,从而保留完整的聚类结构。我们对 ClusterSheep 进行了基准测试,与之前报道的聚类工具 MS-Cluster、MaRaCluster 和 msCRUSH 进行了比较。该软件工具还具有交互可视化工具的功能,具有持久状态,使用户能够直观地探索生成的聚类,并根据需要检索聚类结果。

相似文献

1
ClusterSheep: A Graphics Processing Unit-Accelerated Software Tool for Large-Scale Clustering of Tandem Mass Spectra from Shotgun Proteomics.ClusterSheep:一种用于从 shotgun 蛋白质组学中大规模聚类串联质谱的图形处理单元加速软件工具。
J Proteome Res. 2021 Dec 3;20(12):5359-5367. doi: 10.1021/acs.jproteome.1c00485. Epub 2021 Nov 4.
2
msCRUSH: Fast Tandem Mass Spectral Clustering Using Locality Sensitive Hashing.msCRUSH:基于局部敏感哈希的快速串联质谱聚类。
J Proteome Res. 2019 Jan 4;18(1):147-158. doi: 10.1021/acs.jproteome.8b00448. Epub 2018 Dec 14.
3
Deep learning embedder method and tool for mass spectra similarity search.用于质谱相似性搜索的深度学习嵌入器方法和工具。
J Proteomics. 2021 Feb 10;232:104070. doi: 10.1016/j.jprot.2020.104070. Epub 2020 Dec 8.
4
A Comprehensive Evaluation of Consensus Spectrum Generation Methods in Proteomics.蛋白质组学中共识谱生成方法的综合评价
J Proteome Res. 2022 Jun 3;21(6):1566-1574. doi: 10.1021/acs.jproteome.2c00069. Epub 2022 May 13.
5
MaRaCluster: A Fragment Rarity Metric for Clustering Fragment Spectra in Shotgun Proteomics.MaRaCluster:一种用于鸟枪法蛋白质组学中片段谱聚类的片段稀有度度量方法。
J Proteome Res. 2016 Mar 4;15(3):713-20. doi: 10.1021/acs.jproteome.5b00749. Epub 2016 Jan 12.
6
Spectral archives: extending spectral libraries to analyze both identified and unidentified spectra.光谱档案:扩展光谱库以分析已识别和未识别的光谱。
Nat Methods. 2011 May 15;8(7):587-91. doi: 10.1038/nmeth.1609.
7
HyperSpec: Ultrafast Mass Spectra Clustering in Hyperdimensional Space.超高维空间中的超快质谱聚类分析
J Proteome Res. 2023 Jun 2;22(6):1639-1648. doi: 10.1021/acs.jproteome.2c00612. Epub 2023 May 11.
8
Analytical utility of mass spectral binning in proteomic experiments by SPectral Immonium Ion Detection (SPIID).通过光谱亚胺离子检测(SPIID)进行蛋白质组学实验中质谱分箱的分析效用。
Mol Cell Proteomics. 2014 Aug;13(8):1914-24. doi: 10.1074/mcp.O113.035915. Epub 2014 Jun 3.
9
Leveraging the partition selection bias to achieve a high-quality clustering of mass spectra.利用分区选择偏差实现高质量的质谱聚类。
J Proteomics. 2021 Aug 15;245:104282. doi: 10.1016/j.jprot.2021.104282. Epub 2021 Jun 2.
10
Comparison and Evaluation of Clustering Algorithms for Tandem Mass Spectra.串联质谱数据聚类算法的比较与评估。
J Proteome Res. 2017 Nov 3;16(11):4035-4044. doi: 10.1021/acs.jproteome.7b00427.

引用本文的文献

1
The Proteomics Standards Initiative Standardized Formats for Spectral Libraries and Fragment Ion Peak Annotations: mzSpecLib and mzPAF.蛋白质组学标准倡议标准化格式的光谱库和碎片离子峰注释:mzSpecLib 和 mzPAF。
Anal Chem. 2024 Nov 19;96(46):18491-18501. doi: 10.1021/acs.analchem.4c04091. Epub 2024 Nov 8.
2
Spectroscape enables real-time query and visualization of a spectral archive in proteomics.Spectroscape 能够实时查询和可视化蛋白质组学中的光谱档案。
Nat Commun. 2023 Oct 7;14(1):6267. doi: 10.1038/s41467-023-42006-x.
3
HyperSpec: Ultrafast Mass Spectra Clustering in Hyperdimensional Space.
超高维空间中的超快质谱聚类分析
J Proteome Res. 2023 Jun 2;22(6):1639-1648. doi: 10.1021/acs.jproteome.2c00612. Epub 2023 May 11.