• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

各种诱饵数据库的错误发现率比较。

Comparison of false-discovery rates of various decoy databases.

作者信息

Lee Sangjeong, Park Heejin, Kim Hyunwoo

机构信息

Department of Computer Science, Hanyang University, Seoul, 06978, Republic of Korea.

Center for Supercomputing Applications, Korea Institute of Science and Technology Information, Daejeon, 34141, Republic of Korea.

出版信息

Proteome Sci. 2021 Sep 18;19(1):11. doi: 10.1186/s12953-021-00179-7.

DOI:10.1186/s12953-021-00179-7
PMID:34537052
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8449453/
Abstract

BACKGROUND

The target-decoy strategy effectively estimates the false-discovery rate (FDR) by creating a decoy database with a size identical to that of the target database. Decoy databases are created by various methods, such as, the reverse, pseudo-reverse, shuffle, pseudo-shuffle, and the de Bruijn methods. FDR is sometimes over- or under-estimated depending on which decoy database is used because the ratios of redundant peptides in the target databases are different, that is, the numbers of unique (non-redundancy) peptides in the target and decoy databases differ.

RESULTS

We used two protein databases (the UniProt Saccharomyces cerevisiae protein database and the UniProt human protein database) to compare the FDRs of various decoy databases. When the ratio of redundant peptides in the target database is low, the FDR is not overestimated by any decoy construction method. However, if the ratio of redundant peptides in the target database is high, the FDR is overestimated when the (pseudo) shuffle decoy database is used. Additionally, human and S. cerevisiae six frame translation databases, which are large databases, also showed outcomes similar to that from the UniProt human protein database.

CONCLUSION

The FDR must be estimated using the correction factor proposed by Elias and Gygi or that by Kim et al. when (pseudo) shuffle decoy databases are used.

摘要

背景

目标-诱饵策略通过创建一个与目标数据库大小相同的诱饵数据库来有效地估计错误发现率(FDR)。诱饵数据库通过多种方法创建,如反向、伪反向、洗牌、伪洗牌和德布鲁因方法。由于目标数据库中冗余肽的比例不同,即目标数据库和诱饵数据库中独特(非冗余)肽的数量不同,根据使用的诱饵数据库不同,FDR有时会被高估或低估。

结果

我们使用了两个蛋白质数据库(UniProt酿酒酵母蛋白质数据库和UniProt人类蛋白质数据库)来比较各种诱饵数据库的FDR。当目标数据库中冗余肽的比例较低时,任何诱饵构建方法都不会高估FDR。然而,如果目标数据库中冗余肽的比例较高,使用(伪)洗牌诱饵数据库时FDR会被高估。此外,人类和酿酒酵母六框架翻译数据库(大型数据库)也显示出与UniProt人类蛋白质数据库类似的结果。

结论

当使用(伪)洗牌诱饵数据库时,必须使用Elias和Gygi提出的校正因子或Kim等人提出的校正因子来估计FDR。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9ab4/8449453/9ca4a22b4121/12953_2021_179_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9ab4/8449453/7cd4e689a9f2/12953_2021_179_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9ab4/8449453/9ca4a22b4121/12953_2021_179_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9ab4/8449453/7cd4e689a9f2/12953_2021_179_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/9ab4/8449453/9ca4a22b4121/12953_2021_179_Fig2_HTML.jpg

相似文献

1
Comparison of false-discovery rates of various decoy databases.各种诱饵数据库的错误发现率比较。
Proteome Sci. 2021 Sep 18;19(1):11. doi: 10.1186/s12953-021-00179-7.
2
False discovery rate estimation using candidate peptides for each spectrum.使用每个谱图的候选肽进行错误发现率估计。
BMC Bioinformatics. 2022 Nov 1;23(1):454. doi: 10.1186/s12859-022-05002-4.
3
Target-small decoy search strategy for false discovery rate estimation.针对错误发现率估计的目标小诱饵搜索策略。
BMC Bioinformatics. 2019 Aug 23;20(1):438. doi: 10.1186/s12859-019-3034-8.
4
Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identification.重复保留诱饵数据库用于肽鉴定中的错误发现率估计。
J Proteome Res. 2020 Mar 6;19(3):1029-1036. doi: 10.1021/acs.jproteome.9b00555. Epub 2020 Feb 21.
5
Decoy methods for assessing false positives and false discovery rates in shotgun proteomics.用于评估鸟枪法蛋白质组学中假阳性和错误发现率的诱饵方法。
Anal Chem. 2009 Jan 1;81(1):146-59. doi: 10.1021/ac801664q.
6
DecoyPyrat: Fast Non-redundant Hybrid Decoy Sequence Generation for Large Scale Proteomics.诱饵海盗:用于大规模蛋白质组学的快速非冗余混合诱饵序列生成
J Proteomics Bioinform. 2016 Jun 27;9(6):176-180. doi: 10.4172/jpb.1000404.
7
Reverse and Random Decoy Methods for False Discovery Rate Estimation in High Mass Accuracy Peptide Spectral Library Searches.反转和随机诱饵方法在高质量精度肽谱库搜索中的假发现率估计。
J Proteome Res. 2018 Feb 2;17(2):846-857. doi: 10.1021/acs.jproteome.7b00614. Epub 2018 Jan 11.
8
Improved False Discovery Rate Estimation Procedure for Shotgun Proteomics.用于鸟枪法蛋白质组学的改进型错误发现率估计程序
J Proteome Res. 2015 Aug 7;14(8):3148-61. doi: 10.1021/acs.jproteome.5b00081. Epub 2015 Jul 27.
9
Averaging Strategy To Reduce Variability in Target-Decoy Estimates of False Discovery Rate.平均策略可减少目标-诱饵估计假发现率的变异性。
J Proteome Res. 2019 Feb 1;18(2):585-593. doi: 10.1021/acs.jproteome.8b00802. Epub 2019 Jan 3.
10
Target-decoy false discovery rate estimation using Crema.使用 Crema 进行靶向诱饵假发现率估计。
Proteomics. 2024 Apr;24(8):e2300084. doi: 10.1002/pmic.202300084. Epub 2024 Feb 21.

引用本文的文献

1
Mapping Conformational Changes in the Saliva Proteome Potentially Associated with Oral Cancer Aggressiveness.绘制与口腔癌侵袭性相关的唾液蛋白质组构象变化图谱。
J Proteome Res. 2024 Jun 7;23(6):2148-2159. doi: 10.1021/acs.jproteome.4c00093. Epub 2024 May 24.
2
Top-Down Protein Analysis by Tandem-Trapped Ion Mobility Spectrometry/Mass Spectrometry (Tandem-TIMS/MS) Coupled with Ultraviolet Photodissociation (UVPD) and Parallel Accumulation/Serial Fragmentation (PASEF) MS/MS Analysis.串联陷阱离子淌度谱/质谱(Tandem-TIMS/MS)与紫外光解(UVPD)和并行累积/串行碎裂(PASEF)MS/MS 分析联用的自上而下的蛋白质分析。
J Am Soc Mass Spectrom. 2023 Oct 4;34(10):2232-2246. doi: 10.1021/jasms.3c00187. Epub 2023 Aug 28.
3

本文引用的文献

1
Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identification.重复保留诱饵数据库用于肽鉴定中的错误发现率估计。
J Proteome Res. 2020 Mar 6;19(3):1029-1036. doi: 10.1021/acs.jproteome.9b00555. Epub 2020 Feb 21.
2
Target-small decoy search strategy for false discovery rate estimation.针对错误发现率估计的目标小诱饵搜索策略。
BMC Bioinformatics. 2019 Aug 23;20(1):438. doi: 10.1186/s12859-019-3034-8.
3
A mass-tolerant database search identifies a large proportion of unassigned spectra in shotgun proteomics as modified peptides.
Potential of Negative-Ion-Mode Proteomics: An MS1-Only Approach.
负离子模式蛋白质组学的潜力:一种仅 MS1 的方法。
J Proteome Res. 2023 Aug 4;22(8):2734-2742. doi: 10.1021/acs.jproteome.3c00307. Epub 2023 Jul 3.
4
HyPep: An Open-Source Software for Identification and Discovery of Neuropeptides Using Sequence Homology Search.HyPep:一种使用序列同源搜索鉴定和发现神经肽的开源软件。
J Proteome Res. 2023 Feb 3;22(2):420-431. doi: 10.1021/acs.jproteome.2c00597. Epub 2023 Jan 25.
一种质量容忍度数据库搜索将鸟枪法蛋白质组学中很大一部分未分配的光谱鉴定为修饰肽段。
Nat Biotechnol. 2015 Jul;33(7):743-9. doi: 10.1038/nbt.3267. Epub 2015 Jun 15.
4
Proteogenomics: concepts, applications and computational strategies.蛋白质基因组学:概念、应用及计算策略
Nat Methods. 2014 Nov;11(11):1114-25. doi: 10.1038/nmeth.3144.
5
The one hour yeast proteome.酵母蛋白质组的一个小时。
Mol Cell Proteomics. 2014 Jan;13(1):339-47. doi: 10.1074/mcp.M113.034769. Epub 2013 Oct 19.
6
Comet: an open-source MS/MS sequence database search tool.彗星:一个开源的 MS/MS 序列数据库搜索工具。
Proteomics. 2013 Jan;13(1):22-4. doi: 10.1002/pmic.201200439. Epub 2012 Dec 4.
7
Comparative proteomic analysis of eleven common cell lines reveals ubiquitous but varying expression of most proteins.十一株常见细胞系的比较蛋白质组学分析揭示了大多数蛋白质普遍存在但表达水平各异的现象。
Mol Cell Proteomics. 2012 Mar;11(3):M111.014050. doi: 10.1074/mcp.M111.014050. Epub 2012 Jan 25.
8
A survey of computational methods and error rate estimation procedures for peptide and protein identification in shotgun proteomics.用于在鸟枪法蛋白质组学中鉴定肽和蛋白质的计算方法和错误率估计程序的调查。
J Proteomics. 2010 Oct 10;73(11):2092-123. doi: 10.1016/j.jprot.2010.08.009. Epub 2010 Sep 8.
9
Target-decoy search strategy for mass spectrometry-based proteomics.基于质谱的蛋白质组学的靶标-诱饵搜索策略
Methods Mol Biol. 2010;604:55-71. doi: 10.1007/978-1-60761-444-9_5.
10
Target-Decoy with Mass Binning: a simple and effective validation method for shotgun proteomics using high resolution mass spectrometry.靶向-诱饵带质量-bin 策略:一种使用高分辨质谱进行鸟枪法蛋白质组学验证的简单而有效的方法。
J Proteome Res. 2010 Feb 5;9(2):1150-6. doi: 10.1021/pr9006377.