• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

对 petabase 规模的核苷酸资源进行索引和搜索。

Indexing and searching petabase-scale nucleotide resources.

机构信息

Department of Health and Human Services, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, USA.

出版信息

Nat Methods. 2024 Jun;21(6):994-1002. doi: 10.1038/s41592-024-02280-z. Epub 2024 May 16.

DOI:10.1038/s41592-024-02280-z
PMID:38755321
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11166510/
Abstract

Searching vast and rapidly growing nucleotide content in resources, such as runs in the Sequence Read Archive and assemblies for whole-genome shotgun sequencing projects in GenBank, is currently impractical for most researchers. Here we present Pebblescout, a tool that navigates such content by providing indexing and search capabilities. Indexing uses dense sampling of the sequences in the resource. Search finds subjects (runs or assemblies) that have short sequence matches to a user query, with well-defined guarantees and ranks them using informativeness of the matches. We illustrate the functionality of Pebblescout by creating eight databases that index over 3.7 petabases. The web service of Pebblescout can be reached at https://pebblescout.ncbi.nlm.nih.gov . We show that for a wide range of query lengths, Pebblescout provides a data-driven way for finding relevant subsets of large nucleotide resources, reducing the effort for downstream analysis substantially. We also show that Pebblescout results compare favorably to MetaGraph and Sourmash.

摘要

在资源中搜索大量且快速增长的核苷酸内容,例如序列读取档案中的运行和全基因组鸟枪法测序项目在 GenBank 中的组装,目前对大多数研究人员来说是不切实际的。在这里,我们介绍了 Pebblescout,它通过提供索引和搜索功能来导航这些内容。索引使用资源中序列的密集采样。搜索找到与用户查询有短序列匹配的主题(运行或组装),并使用匹配的信息量对其进行定义良好的排名。我们通过创建八个索引超过 3.7 千万亿字节的数据库来展示 Pebblescout 的功能。Pebblescout 的网络服务可以在 https://pebblescout.ncbi.nlm.nih.gov 上访问。我们表明,对于广泛的查询长度,Pebblescout 为寻找大型核苷酸资源的相关子集提供了一种数据驱动的方法,大大减少了下游分析的工作量。我们还表明,Pebblescout 的结果与 MetaGraph 和 Sourmash 相比具有优势。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49ac/11166510/18ce76181ba4/nihms-1991367-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49ac/11166510/44320a5e8662/nihms-1991367-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49ac/11166510/18ce76181ba4/nihms-1991367-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49ac/11166510/44320a5e8662/nihms-1991367-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49ac/11166510/18ce76181ba4/nihms-1991367-f0002.jpg

相似文献

1
Indexing and searching petabase-scale nucleotide resources.对 petabase 规模的核苷酸资源进行索引和搜索。
Nat Methods. 2024 Jun;21(6):994-1002. doi: 10.1038/s41592-024-02280-z. Epub 2024 May 16.
2
Pebblescout is an easy-to-use tool for fast sequence search in petabase-scale nucleotide resources.Pebblescout是一个易于使用的工具,用于在PB级核苷酸资源中进行快速序列搜索。
Nat Methods. 2024 Jun;21(6):938-939. doi: 10.1038/s41592-024-02281-y.
3
GenBank.GenBank。
Nucleic Acids Res. 2010 Jan;38(Database issue):D46-51. doi: 10.1093/nar/gkp1024. Epub 2009 Nov 12.
4
GenBank.GenBank。
Nucleic Acids Res. 2019 Jan 8;47(D1):D94-D99. doi: 10.1093/nar/gky989.
5
Database resources of the National Center for Biotechnology Information.国家生物技术信息中心数据库资源。
Nucleic Acids Res. 2010 Jan;38(Database issue):D5-16. doi: 10.1093/nar/gkp967. Epub 2009 Nov 12.
6
search GenBank: interactive orchestration and ad-hoc choreography of Web services in the exploration of the biomedical resources of the National Center For Biotechnology Information.搜索 GenBank:在探索国家生物技术信息中心的生物医学资源时,对 Web 服务进行交互式编排和临时编排。
BMC Bioinformatics. 2013 Mar 1;14:73. doi: 10.1186/1471-2105-14-73.
7
Indexing strategies for rapid searches of short words in genome sequences.基因组序列中短词的快速搜索索引策略。
PLoS One. 2007 Jun 27;2(6):e579. doi: 10.1371/journal.pone.0000579.
8
Using GenBank.使用基因库。
Methods Mol Biol. 2016;1374:1-22. doi: 10.1007/978-1-4939-3167-5_1.
9
GenBank.基因银行
Nucleic Acids Res. 2011 Jan;39(Database issue):D32-7. doi: 10.1093/nar/gkq1079. Epub 2010 Nov 10.
10
GenBank.GenBank
Nucleic Acids Res. 2020 Jan 8;48(D1):D84-D86. doi: 10.1093/nar/gkz956.

引用本文的文献

1
A prevalent huge phage clade in human and animal gut microbiomes.在人类和动物肠道微生物群中普遍存在的一个巨大噬菌体分支。
Res Sq. 2025 Aug 19:rs.3.rs-7356405. doi: 10.21203/rs.3.rs-7356405/v1.
2
A prevalent huge phage clade in human and animal gut microbiomes.人类和动物肠道微生物群中普遍存在的一个巨大噬菌体分支。
bioRxiv. 2025 Aug 11:2025.08.10.669567. doi: 10.1101/2025.08.10.669567.
3
Metagenomic analysis uncovers novel hepadnaviruses and nackednaviruses.宏基因组分析发现了新型嗜肝DNA病毒和无包膜病毒。

本文引用的文献

1
Themisto: a scalable colored k-mer index for sensitive pseudoalignment against hundreds of thousands of bacterial genomes. Themisto:一种可扩展的彩色 k-mer 索引,可用于对数十万细菌基因组进行敏感的伪比对。
Bioinformatics. 2023 Jun 30;39(39 Suppl 1):i260-i269. doi: 10.1093/bioinformatics/btad233.
2
Hierarchical Interleaved Bloom Filter: enabling ultrafast, approximate sequence queries.分层交错布隆过滤器:实现超快速、近似的序列查询。
Genome Biol. 2023 May 31;24(1):131. doi: 10.1186/s13059-023-02971-4.
3
' Megaira' are diverse symbionts of algae and ciliates with the potential for defensive symbiosis.
Sci Rep. 2025 Jul 9;15(1):24699. doi: 10.1038/s41598-025-05993-z.
4
Kaminari: a resource-frugal index for approximate colored -mer queries.电雷:一种用于近似彩色k-mer查询的资源节约型索引。
bioRxiv. 2025 May 21:2025.05.16.654317. doi: 10.1101/2025.05.16.654317.
5
in environmental studies is derived from human inputs.环境研究中的(某事物)源自人类投入。 (这里原句不完整,根据现有内容只能这样翻译,不太明确具体所指。)
mBio. 2025 Jun 11;16(6):e0114225. doi: 10.1128/mbio.01142-25. Epub 2025 May 19.
6
Viroid-like "obelisk" agents are widespread in the ocean and exceed the abundance of RNA viruses in the prokaryotic fraction.类病毒样“方尖碑”因子在海洋中广泛存在,且在原核生物部分中的丰度超过了RNA病毒。
ISME J. 2025 Jan 2;19(1). doi: 10.1093/ismejo/wraf033.
7
Pacmanvirus isolated from the Lost City hydrothermal field extends the concept of transpoviron beyond the family Mimiviridae.从失落之城热液区分离出的Pacman病毒扩展了超越 Mimiviridae 科的转座病毒圈概念。
ISME J. 2025 Jan 2;19(1). doi: 10.1093/ismejo/wraf002.
8
BWT construction and search at the terabase scale.万亿碱基规模下的BWT构建与搜索。
Bioinformatics. 2024 Nov 28;40(12). doi: 10.1093/bioinformatics/btae717.
9
Novel polyomavirus in the endangered garden dormouse Eliomys quercinus.濒危花园睡鼠体内的新型多瘤病毒。
Virol J. 2024 Nov 27;21(1):309. doi: 10.1186/s12985-024-02581-x.
10
Viroid-like colonists of human microbiomes.人类微生物组中的类病毒殖民者。
Cell. 2024 Nov 14;187(23):6521-6536.e18. doi: 10.1016/j.cell.2024.09.033. Epub 2024 Oct 30.
“Megaira”是藻类和纤毛虫的多样化共生体,具有防御共生的潜力。
Microb Genom. 2023 Mar;9(3). doi: 10.1099/mgen.0.000950.
4
MetaProFi: an ultrafast chunked Bloom filter for storing and querying protein and nucleotide sequence data for accurate identification of functionally relevant genetic variants.MetaProFi:一种超快的分块布隆过滤器,用于存储和查询蛋白质和核苷酸序列数据,以准确识别功能相关的遗传变异。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad101.
5
kmtricks: efficient and flexible construction of Bloom filters for large sequencing data collections.kmtricks:用于大型测序数据集的布隆过滤器的高效灵活构建
Bioinform Adv. 2022 Apr 29;2(1):vbac029. doi: 10.1093/bioadv/vbac029. eCollection 2022.
6
Genomic Analysis of the Suspicious SARS-CoV-2 Sequences in the Public Sequencing Database.对公共测序数据库中可疑 SARS-CoV-2 序列的基因组分析。
Microbiol Spectr. 2023 Feb 14;11(1):e0342622. doi: 10.1128/spectrum.03426-22. Epub 2023 Jan 9.
7
Lossless indexing with counting de Bruijn graphs.基于计数型 de Bruijn 图的无损索引
Genome Res. 2022 Sep 27;32(9):1754-1764. doi: 10.1101/gr.276607.122.
8
Finding a Needle in a Haystack - In Silico Search for Environmental Traces of Candida auris.在干草堆中找针 - 寻找耳念珠菌环境痕迹的计算搜索。
Jpn J Infect Dis. 2022 Sep 22;75(5):490-495. doi: 10.7883/yoken.JJID.2022.068. Epub 2022 Apr 28.
9
Abundant and persistent sulfur-oxidizing microbial populations are responsive to hypoxia in the Chesapeake Bay.切萨皮克湾中有丰富且持久的硫氧化微生物种群,对缺氧环境有响应。
Environ Microbiol. 2022 May;24(5):2315-2332. doi: 10.1111/1462-2920.15976. Epub 2022 Mar 19.
10
Clinical Perspective of Antimicrobial Resistance in Bacteria.细菌耐药性的临床视角
Infect Drug Resist. 2022 Mar 2;15:735-746. doi: 10.2147/IDR.S345574. eCollection 2022.