• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用 FCS-GX 实现大规模的基因组污染快速灵敏检测。

Rapid and sensitive detection of genome contamination at scale with FCS-GX.

机构信息

National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, USA.

出版信息

Genome Biol. 2024 Feb 26;25(1):60. doi: 10.1186/s13059-024-03198-7.

DOI:10.1186/s13059-024-03198-7
PMID:38409096
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10898089/
Abstract

Assembled genome sequences are being generated at an exponential rate. Here we present FCS-GX, part of NCBI's Foreign Contamination Screen (FCS) tool suite, optimized to identify and remove contaminant sequences in new genomes. FCS-GX screens most genomes in 0.1-10 min. Testing FCS-GX on artificially fragmented genomes demonstrates high sensitivity and specificity for diverse contaminant species. We used FCS-GX to screen 1.6 million GenBank assemblies and identified 36.8 Gbp of contamination, comprising 0.16% of total bases, with half from 161 assemblies. We updated assemblies in NCBI RefSeq to reduce detected contamination to 0.01% of bases. FCS-GX is available at https://github.com/ncbi/fcs/ or https://doi.org/10.5281/zenodo.10651084 .

摘要

组装基因组序列正在以指数级的速度产生。在这里,我们展示了 FCS-GX,它是 NCBI 的外来污染筛选 (FCS) 工具套件的一部分,经过优化可用于识别和去除新基因组中的污染序列。FCS-GX 可以在 0.1-10 分钟内筛选大多数基因组。在人工碎片化的基因组上测试 FCS-GX 表明,它对各种污染物种具有很高的灵敏度和特异性。我们使用 FCS-GX 筛选了 160 万个 GenBank 组装体,发现了 3680 亿 bp 的污染,占总碱基的 0.16%,其中一半来自 161 个组装体。我们更新了 NCBI RefSeq 中的组装体,将检测到的污染减少到碱基的 0.01%。FCS-GX 可在 https://github.com/ncbi/fcs/ 或 https://doi.org/10.5281/zenodo.10651084 获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/dfcbb27ace69/13059_2024_3198_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/bd2813d995a9/13059_2024_3198_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/72b8338c207a/13059_2024_3198_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/ca4b043aa2d6/13059_2024_3198_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/dfcbb27ace69/13059_2024_3198_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/bd2813d995a9/13059_2024_3198_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/72b8338c207a/13059_2024_3198_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/ca4b043aa2d6/13059_2024_3198_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5c30/10898089/dfcbb27ace69/13059_2024_3198_Fig4_HTML.jpg

相似文献

1
Rapid and sensitive detection of genome contamination at scale with FCS-GX.使用 FCS-GX 实现大规模的基因组污染快速灵敏检测。
Genome Biol. 2024 Feb 26;25(1):60. doi: 10.1186/s13059-024-03198-7.
2
Rapid and sensitive detection of genome contamination at scale with FCS-GX.使用FCS-GX大规模快速灵敏地检测基因组污染。
bioRxiv. 2023 Jun 6:2023.06.02.543519. doi: 10.1101/2023.06.02.543519.
3
RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.RefSeq 与宏基因组时代的原核生物基因组注释流程。
Nucleic Acids Res. 2024 Jan 5;52(D1):D762-D769. doi: 10.1093/nar/gkad988.
4
Terminating contamination: large-scale search identifies more than 2,000,000 contaminated entries in GenBank.终止污染:大规模搜索在 GenBank 中发现超过 200 万条污染条目。
Genome Biol. 2020 May 12;21(1):115. doi: 10.1186/s13059-020-02023-1.
5
Comparison of RefSeq protein-coding regions in human and vertebrate genomes.比较人类和脊椎动物基因组中的 RefSeq 编码蛋白区域。
BMC Genomics. 2013 Sep 25;14:654. doi: 10.1186/1471-2164-14-654.
6
EcoGene-RefSeq: EcoGene tools applied to the RefSeq prokaryotic genomes.EcoGene-RefSeq:应用于 RefSeq 原核基因组的 EcoGene 工具。
Bioinformatics. 2013 Aug 1;29(15):1917-8. doi: 10.1093/bioinformatics/btt302. Epub 2013 Jun 4.
7
Comparative Analysis and Data Provenance for 1,113 Bacterial Genome Assemblies.对 1113 个细菌基因组组装的比较分析和数据溯源。
mSphere. 2022 Jun 29;7(3):e0007722. doi: 10.1128/msphere.00077-22. Epub 2022 May 2.
8
Assembly: a resource for assembled genomes at NCBI.组装:美国国立医学图书馆(NCBI)中已组装基因组的资源。
Nucleic Acids Res. 2016 Jan 4;44(D1):D73-80. doi: 10.1093/nar/gkv1226. Epub 2015 Nov 17.
9
NCBI reference sequences (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins.美国国立生物技术信息中心参考序列(RefSeq):一个经过整理的基因组、转录本和蛋白质的非冗余序列数据库。
Nucleic Acids Res. 2007 Jan;35(Database issue):D61-5. doi: 10.1093/nar/gkl842. Epub 2006 Nov 27.
10
Mouse genome annotation by the RefSeq project.由RefSeq项目进行的小鼠基因组注释。
Mamm Genome. 2015 Oct;26(9-10):379-90. doi: 10.1007/s00335-015-9585-8. Epub 2015 Jul 28.

引用本文的文献

1
Draft genome of the Cuban Painted Landsnail Polymita picta, International Mollusc of the year 2022.古巴彩绘陆地蜗牛Polymita picta的基因组草图,2022年国际软体动物。
BMC Genom Data. 2025 Sep 3;26(1):63. doi: 10.1186/s12863-025-01356-9.
2
Sex Differentiation and Long-Distance Gene Flow in the Elusive Antarctic Fish .神秘南极鱼类的性别分化与长距离基因流动
Ecol Evol. 2025 Aug 20;15(8):e71847. doi: 10.1002/ece3.71847. eCollection 2025 Aug.
3
Genetic isolation and metabolic complexity of an Antarctic subglacial microbiome.

本文引用的文献

1
The NIH Comparative Genomics Resource: addressing the promises and challenges of comparative genomics on human health.NIH 比较基因组学资源:应对比较基因组学在人类健康方面的承诺和挑战。
BMC Genomics. 2023 Sep 27;24(1):575. doi: 10.1186/s12864-023-09643-4.
2
Landscape of mobile genetic elements and their antibiotic resistance cargo in prokaryotic genomes.原核生物基因组中移动遗传元件及其抗生素抗性载物的景观。
Nucleic Acids Res. 2022 Apr 8;50(6):3155-3168. doi: 10.1093/nar/gkac163.
3
Contamination detection in genomic data: more is not enough.
南极冰下微生物群落的遗传隔离与代谢复杂性
Nat Commun. 2025 Aug 18;16(1):7501. doi: 10.1038/s41467-025-62753-3.
4
A chromosome-level Mitragyna parvifolia genome unveils spirooxindole alkaloid diversification and mitraphylline biosynthesis.染色体水平的小叶帽柱木基因组揭示了螺环氧化吲哚生物碱的多样性和帽柱木碱的生物合成。
Plant Cell. 2025 Sep 9;37(9). doi: 10.1093/plcell/koaf207.
5
Genome assembly at the chromosome level of Clinopodium barosmum.留兰香染色体水平的基因组组装
Sci Data. 2025 Aug 12;12(1):1406. doi: 10.1038/s41597-025-05784-1.
6
How drought and ploidy level shape gene expression and DNA methylation in Phragmites australis.干旱和倍性水平如何塑造芦苇的基因表达和DNA甲基化。
Plant Cell Rep. 2025 Aug 12;44(9):197. doi: 10.1007/s00299-025-03585-9.
7
An X-linked sex determination mechanism in cannabis and hop.大麻和啤酒花中的X连锁性别决定机制。
bioRxiv. 2025 Jul 24:2024.12.09.627636. doi: 10.1101/2024.12.09.627636.
8
First metagenome-assembled genome of from gastric lavage.来自洗胃样本的首个宏基因组组装基因组。
Microbiol Resour Announc. 2025 Sep 11;14(9):e0034225. doi: 10.1128/mra.00342-25. Epub 2025 Jul 31.
9
Whole genome sequencing and assembly of the house sparrow, .家麻雀的全基因组测序与组装
GigaByte. 2025 Jul 21;2025:gigabyte161. doi: 10.46471/gigabyte.161. eCollection 2025.
10
Complex genetic variation in nearly complete human genomes.近乎完整的人类基因组中的复杂遗传变异。
Nature. 2025 Jul 23. doi: 10.1038/s41586-025-09140-6.
基因组数据中的污染检测:更多并不一定更好。
Genome Biol. 2022 Feb 21;23(1):60. doi: 10.1186/s13059-022-02619-9.
4
Multiple Cases of Bacterial Sequence Erroneously Incorporated Into Publicly Available Chloroplast Genomes.细菌序列错误整合到公开可用叶绿体基因组中的多例情况。
Front Genet. 2022 Jan 13;12:821715. doi: 10.3389/fgene.2021.821715. eCollection 2021.
5
GenBank.GenBank
Nucleic Acids Res. 2022 Jan 7;50(D1):D161-D164. doi: 10.1093/nar/gkab1135.
6
Contamination in Reference Sequence Databases: Time for Divide-and-Rule Tactics.参考序列数据库中的污染:是时候采取分而治之的策略了。
Front Microbiol. 2021 Oct 22;12:755101. doi: 10.3389/fmicb.2021.755101. eCollection 2021.
7
GUNC: detection of chimerism and contamination in prokaryotic genomes.GUNC:原核基因组嵌合体和污染的检测。
Genome Biol. 2021 Jun 13;22(1):178. doi: 10.1186/s13059-021-02393-0.
8
Accurate and complete genomes from metagenomes.从宏基因组中获得准确和完整的基因组。
Genome Res. 2020 Mar;30(3):315-333. doi: 10.1101/gr.258640.119. Epub 2020 Mar 18.
9
BlobToolKit - Interactive Quality Assessment of Genome Assemblies.BlobToolKit - 基因组组装的交互式质量评估。
G3 (Bethesda). 2020 Apr 9;10(4):1361-1374. doi: 10.1534/g3.119.400908.
10
Human contamination in bacterial genomes has created thousands of spurious proteins.人类污染的细菌基因组中创造了数千个虚假蛋白质。
Genome Res. 2019 Jun;29(6):954-960. doi: 10.1101/gr.245373.118. Epub 2019 May 7.