• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

高效访问mzML文件的编程方法比较

Comparison of Programmatic Approaches for Efficient Accessing to mzML Files.

作者信息

Gilski Miroslaw J, Sadygov Rovshan G

机构信息

Department of Biochemistry and Molecular Biology, The University of Texas Medical Branch, 301 University Blvd., Galveston, TX, 77555, USA.

出版信息

J Data Mining Genomics Proteomics. 2011 Jan 1;2(1). doi: 10.4172/2153-0602.1000109.

DOI:10.4172/2153-0602.1000109
PMID:21766049
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3135311/
Abstract

The Human Proteome Organization (HUPO) Proteomics Standard Initiative has been tasked with developing file formats for storing raw data (mzML) and the results of spectral processing (protein identification and quantification) from proteomics experiments (mzIndentML). In order to fully characterize complex experiments, special data types have been designed. Standardized file formats will promote visualization, validation and dissemination of data independent of the vendor-specific binary data storage files. Innovative programmatic solutions for robust and efficient data access to standardized file formats will contribute to more rapid wide-scale acceptance of these file formats by the proteomics community.In this work, we compare algorithms for accessing spectral data in the mzML file format. As an XML file, mzML files allow efficient parsing of data structures when using XML-specific class types. These classes provide only sequential access to files. However, random access to spectral data is needed in many algorithmic applications for processing proteomics datasets. Here, we demonstrate implementation of memory streams to convert a sequential access into random access. Our application preserves the elegant XML parsing capabilities. Benchmarking file access times in sequential and random access modes show that while for small number of spectra the random access is more time efficient, when retrieving large number of spectra sequential access becomes more efficient. We also provide comparisons to other file accessing methods from academia and industry.

摘要

人类蛋白质组组织(HUPO)蛋白质组学标准倡议组织的任务是开发用于存储蛋白质组学实验原始数据(mzML)以及光谱处理结果(蛋白质鉴定和定量)的文件格式(mzIndentML)。为了全面表征复杂实验,已设计了特殊的数据类型。标准化文件格式将促进数据的可视化、验证和传播,而不受特定供应商二进制数据存储文件的限制。用于对标准化文件格式进行强大而高效的数据访问的创新编程解决方案,将有助于蛋白质组学界更快地广泛接受这些文件格式。在这项工作中,我们比较了以mzML文件格式访问光谱数据的算法。作为XML文件,mzML文件在使用特定于XML的类类型时允许对数据结构进行高效解析。这些类仅提供对文件的顺序访问。然而,在许多用于处理蛋白质组学数据集的算法应用中,需要对光谱数据进行随机访问。在此,我们展示了内存流的实现,以将顺序访问转换为随机访问。我们的应用程序保留了出色的XML解析功能。对顺序访问和随机访问模式下的文件访问时间进行基准测试表明,虽然对于少量光谱,随机访问在时间上更高效,但在检索大量光谱时,顺序访问会变得更高效。我们还与学术界和工业界的其他文件访问方法进行了比较。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/e8a77debb5a4/nihms290497f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/3383163c67ce/nihms290497f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/64b469c3ee22/nihms290497f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/07e9e6ea58d3/nihms290497f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/e8a77debb5a4/nihms290497f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/3383163c67ce/nihms290497f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/64b469c3ee22/nihms290497f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/07e9e6ea58d3/nihms290497f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/099f/3135311/e8a77debb5a4/nihms290497f4.jpg

相似文献

1
Comparison of Programmatic Approaches for Efficient Accessing to mzML Files.高效访问mzML文件的编程方法比较
J Data Mining Genomics Proteomics. 2011 Jan 1;2(1). doi: 10.4172/2153-0602.1000109.
2
Fast and Efficient XML Data Access for Next-Generation Mass Spectrometry.面向下一代质谱分析的快速高效XML数据访问
PLoS One. 2015 Apr 30;10(4):e0125108. doi: 10.1371/journal.pone.0125108. eCollection 2015.
3
Numerical compression schemes for proteomics mass spectrometry data.蛋白质组学质谱数据的数值压缩方案。
Mol Cell Proteomics. 2014 Jun;13(6):1537-42. doi: 10.1074/mcp.O114.037879. Epub 2014 Mar 27.
4
Toffee - a highly efficient, lossless file format for DIA-MS.太妃糖 - 一种用于 DIA-MS 的高效、无损文件格式。
Sci Rep. 2020 Jun 2;10(1):8939. doi: 10.1038/s41598-020-65015-y.
5
mzMLb: A Future-Proof Raw Mass Spectrometry Data Format Based on Standards-Compliant mzML and Optimized for Speed and Storage Requirements.mzMLb:一种基于符合标准的 mzML 并针对速度和存储要求进行优化的未来证明型原始质谱数据格式。
J Proteome Res. 2021 Jan 1;20(1):172-183. doi: 10.1021/acs.jproteome.0c00192. Epub 2020 Oct 29.
6
Spectra, chromatograms, Metadata: mzML-the standard data format for mass spectrometer output.光谱、色谱图、元数据:mzML——质谱仪输出的标准数据格式。
Methods Mol Biol. 2011;696:179-203. doi: 10.1007/978-1-60761-987-1_11.
7
imzML: Imaging Mass Spectrometry Markup Language: A common data format for mass spectrometry imaging.imzML:成像质谱标记语言:一种用于质谱成像的通用数据格式。
Methods Mol Biol. 2011;696:205-24. doi: 10.1007/978-1-60761-987-1_12.
8
Mass spectrometer output file format mzML.质谱仪输出文件格式为mzML。
Methods Mol Biol. 2010;604:319-31. doi: 10.1007/978-1-60761-444-9_22.
9
mzDB: a file format using multiple indexing strategies for the efficient analysis of large LC-MS/MS and SWATH-MS data sets.mzDB:一种使用多种索引策略的文件格式,用于高效分析大型液相色谱-串联质谱(LC-MS/MS)和全景式二级质谱(SWATH-MS)数据集。
Mol Cell Proteomics. 2015 Mar;14(3):771-81. doi: 10.1074/mcp.O114.039115. Epub 2014 Dec 11.
10
Preparing to work with big data in proteomics - a report on the HUPO-PSI Spring Workshop: April 15-17, 2013, Liverpool, UK.准备在蛋白质组学中使用大数据 - HUPO-PSI 春季研讨会报告:2013 年 4 月 15-17 日,英国利物浦。
Proteomics. 2013 Oct;13(20):2931-7. doi: 10.1002/pmic.201370166.

引用本文的文献

1
Software Tool for Visualization and Validation of Protein Turnover Rates Using Heavy Water Metabolic Labeling and LC-MS.使用重水代谢标记和 LC-MS 可视化和验证蛋白质周转率的软件工具。
Int J Mol Sci. 2022 Nov 23;23(23):14620. doi: 10.3390/ijms232314620.
2
Current Bioinformatics Challenges in Proteome Dynamics using Heavy Water-based Metabolic Labeling.使用基于重水的代谢标记研究蛋白质组动力学中的当前生物信息学挑战
J Data Mining Genomics Proteomics. 2014 Feb;5(1):e112. doi: 10.4172/2153-0602.1000e112.
3
Use of singular value decomposition analysis to differentiate phosphorylated precursors in strong cation exchange fractions.使用奇异值分解分析来区分强阳离子交换馏分中的磷酸化前体。
Electrophoresis. 2014 Dec;35(24):3498-503. doi: 10.1002/elps.201400053. Epub 2014 Jul 24.
4
Use of theoretical peptide distributions in phosphoproteome analysis.理论肽分布在磷酸化蛋白质组学分析中的应用。
J Proteome Res. 2013 Jul 5;12(7):3207-14. doi: 10.1021/pr4003382. Epub 2013 Jun 19.

本文引用的文献

1
An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database.一种将肽的串联质谱数据与蛋白质数据库中氨基酸序列相关联的方法。
J Am Soc Mass Spectrom. 1994 Nov;5(11):976-89. doi: 10.1016/1044-0305(94)80016-2.
2
An efficient data format for mass spectrometry-based proteomics.基于质谱的蛋白质组学的高效数据格式。
J Am Soc Mass Spectrom. 2010 Oct;21(10):1784-8. doi: 10.1016/j.jasms.2010.06.014. Epub 2010 Jul 7.
3
Using power spectrum analysis to evaluate (18)O-water labeling data acquired from low resolution mass spectrometers.使用功率谱分析评估从低分辨率质谱仪获得的(18)O 水标记数据。
J Proteome Res. 2010 Aug 6;9(8):4306-12. doi: 10.1021/pr100642q.
4
jmzML, an open-source Java API for mzML, the PSI standard for MS data.jmzML,一个用于 mzML 的开源 Java API,mzML 是 MS 数据的 PSI 标准。
Proteomics. 2010 Apr;10(7):1332-5. doi: 10.1002/pmic.200900719.
5
A guided tour of the Trans-Proteomic Pipeline.《跨蛋白质组学分析流程指南》
Proteomics. 2010 Mar;10(6):1150-9. doi: 10.1002/pmic.200900375.
6
MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification.MaxQuant可实现高肽段鉴定率、个体化的百万分之一级质量精度以及全蛋白质组范围的蛋白质定量。
Nat Biotechnol. 2008 Dec;26(12):1367-72. doi: 10.1038/nbt.1511. Epub 2008 Nov 30.
7
The impact of peptide abundance and dynamic range on stable-isotope-based quantitative proteomic analyses.肽丰度和动态范围对基于稳定同位素的定量蛋白质组学分析的影响。
J Proteome Res. 2008 Nov;7(11):4756-65. doi: 10.1021/pr800333e. Epub 2008 Sep 18.
8
ProteoWizard: open source software for rapid proteomics tools development.ProteoWizard:用于快速蛋白质组学工具开发的开源软件。
Bioinformatics. 2008 Nov 1;24(21):2534-6. doi: 10.1093/bioinformatics/btn323. Epub 2008 Jul 7.
9
Comprehensive analysis of the mouse renal cortex using two-dimensional HPLC - tandem mass spectrometry.使用二维高效液相色谱-串联质谱法对小鼠肾皮质进行综合分析。
Proteome Sci. 2008 May 23;6:15. doi: 10.1186/1477-5956-6-15.
10
Validation of tandem mass spectrometry database search results using DTASelect.使用DTASelect验证串联质谱数据库搜索结果。
Curr Protoc Bioinformatics. 2007 Jan;Chapter 13:Unit 13.4. doi: 10.1002/0471250953.bi1304s16.