• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于分子的布隆过滤器。

Bloom filters for molecules.

作者信息

Medina Jorge, White Andrew D

机构信息

Department of Chemical Engineering, University of Rochester, Rochester, NY, USA.

出版信息

J Cheminform. 2023 Oct 12;15(1):95. doi: 10.1186/s13321-023-00765-1.

DOI:10.1186/s13321-023-00765-1
PMID:37828615
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10571468/
Abstract

Ultra-large chemical libraries are reaching 10s to 100s of billions of molecules. A challenge for these libraries is to efficiently check if a proposed molecule is present. Here we propose and study Bloom filters for testing if a molecule is present in a set using either string or fingerprint representations. Bloom filters are small enough to hold billions of molecules in just a few GB of memory and check membership in sub milliseconds. We found string representations can have a false positive rate below 1% and require significantly less storage than using fingerprints. Canonical SMILES with Bloom filters with the simple FNV (Fowler-Noll-Voll) hashing function provide fast and accurate membership tests with small memory requirements. We provide a general implementation and specific filters for detecting if a molecule is purchasable, patented, or a natural product according to existing databases at https://github.com/whitead/molbloom .

摘要

超大型化学文库的规模已达 tens 到 1000 亿个分子。这些文库面临的一个挑战是要高效地检查某个提议的分子是否存在。在此,我们提出并研究布隆过滤器,用于使用字符串或指纹表示法来测试某个分子是否存在于一个集合中。布隆过滤器足够小,仅需几GB内存就能容纳数十亿个分子,并能在亚毫秒级时间内检查成员资格。我们发现,字符串表示法的误报率可低于1%,且与使用指纹相比,所需存储空间显著更少。带有简单FNV(Fowler-Noll-Voll)哈希函数的布隆过滤器的规范SMILES能以小内存需求提供快速且准确的成员资格测试。我们在https://github.com/whitead/molbloom上提供了一个通用实现以及用于根据现有数据库检测某个分子是否可购买、是否有专利或是否为天然产物的特定过滤器。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/dd2dac500649/13321_2023_765_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/c49a987b3fd4/13321_2023_765_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/ae47549ae040/13321_2023_765_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/8aeb44ec0198/13321_2023_765_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/dd2dac500649/13321_2023_765_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/c49a987b3fd4/13321_2023_765_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/ae47549ae040/13321_2023_765_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/8aeb44ec0198/13321_2023_765_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/11fd/10571468/dd2dac500649/13321_2023_765_Fig4_HTML.jpg

相似文献

1
Bloom filters for molecules.用于分子的布隆过滤器。
J Cheminform. 2023 Oct 12;15(1):95. doi: 10.1186/s13321-023-00765-1.
2
A CMAC-based scheme for determining membership with classification of text strings.一种基于小脑模型关节控制器的用于确定文本字符串分类隶属度的方案。
Neural Comput Appl. 2016;27:1959-1967. doi: 10.1007/s00521-015-1989-6. Epub 2015 Jul 10.
3
BioBloom tools: fast, accurate and memory-efficient host species sequence screening using bloom filters.BioBloom工具:使用布隆过滤器进行快速、准确且内存高效的宿主物种序列筛选。
Bioinformatics. 2014 Dec 1;30(23):3402-4. doi: 10.1093/bioinformatics/btu558. Epub 2014 Aug 20.
4
One molecular fingerprint to rule them all: drugs, biomolecules, and the metabolome.一种分子指纹统御万物:药物、生物分子与代谢组。
J Cheminform. 2020 Jun 12;12(1):43. doi: 10.1186/s13321-020-00445-4.
5
A probabilistic molecular fingerprint for big data settings.一种适用于大数据环境的概率分子指纹。
J Cheminform. 2018 Dec 18;10(1):66. doi: 10.1186/s13321-018-0321-8.
6
fimpera: drastic improvement of Approximate Membership Query data-structures with counts.fimpera:使用计数极大地改进了近似成员查询数据结构。
Bioinformatics. 2023 May 4;39(5). doi: 10.1093/bioinformatics/btad305.
7
Bloom Filter Trie: an alignment-free and reference-free data structure for pan-genome storage.布隆过滤器前缀树:一种用于泛基因组存储的无比对和无参考的数据结构。
Algorithms Mol Biol. 2016 Apr 14;11:3. doi: 10.1186/s13015-016-0066-8. eCollection 2016.
8
Evaluation of approximate comparison methods on Bloom filters for probabilistic linkage.用于概率链接的布隆过滤器上近似比较方法的评估。
Int J Popul Data Sci. 2019 May 23;4(1):1095. doi: 10.23889/ijpds.v4i1.1095.
9
Improving Bloom Filter Performance on Sequence Data Using k-mer Bloom Filters.使用k-mer布隆过滤器提高序列数据上的布隆过滤器性能。
J Comput Biol. 2017 Jun;24(6):547-557. doi: 10.1089/cmb.2016.0155. Epub 2016 Nov 9.
10
kmtricks: efficient and flexible construction of Bloom filters for large sequencing data collections.kmtricks:用于大型测序数据集的布隆过滤器的高效灵活构建
Bioinform Adv. 2022 Apr 29;2(1):vbac029. doi: 10.1093/bioadv/vbac029. eCollection 2022.

引用本文的文献

1
Enhancing Monte Carlo Tree Search for Retrosynthesis.增强蒙特卡洛树搜索用于逆合成分析
J Chem Inf Model. 2025 Jul 14;65(13):6537-6546. doi: 10.1021/acs.jcim.5c00417. Epub 2025 Jun 13.
2
Augmenting large language models with chemistry tools.用化学工具增强大语言模型。
Nat Mach Intell. 2024;6(5):525-535. doi: 10.1038/s42256-024-00832-8. Epub 2024 May 8.
3
AiZynthFinder 4.0: developments based on learnings from 3 years of industrial application.艾辛思寻径器4.0:基于三年工业应用经验的发展成果

本文引用的文献

1
Augmenting large language models with chemistry tools.用化学工具增强大语言模型。
Nat Mach Intell. 2024;6(5):525-535. doi: 10.1038/s42256-024-00832-8. Epub 2024 May 8.
2
PubChem 2023 update.PubChem 2023 更新。
Nucleic Acids Res. 2023 Jan 6;51(D1):D1373-D1380. doi: 10.1093/nar/gkac956.
3
One molecular fingerprint to rule them all: drugs, biomolecules, and the metabolome.一种分子指纹统御万物:药物、生物分子与代谢组。
J Cheminform. 2024 May 23;16(1):57. doi: 10.1186/s13321-024-00860-x.
J Cheminform. 2020 Jun 12;12(1):43. doi: 10.1186/s13321-020-00445-4.
4
COCONUT online: Collection of Open Natural Products database.COCONUT在线:开放天然产物数据库集合。
J Cheminform. 2021 Jan 10;13(1):2. doi: 10.1186/s13321-020-00478-9.
5
ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery.ZINC20-A 免费超大尺度化学数据库,用于配体发现。
J Chem Inf Model. 2020 Dec 28;60(12):6065-6073. doi: 10.1021/acs.jcim.0c00675. Epub 2020 Oct 29.
6
A neural data structure for novelty detection.一种用于新颖性检测的神经数据结构。
Proc Natl Acad Sci U S A. 2018 Dec 18;115(51):13093-13098. doi: 10.1073/pnas.1814448115. Epub 2018 Dec 3.
7
SureChEMBL: a large-scale, chemically annotated patent document database.SureChEMBL:一个大规模的、经过化学注释的专利文献数据库。
Nucleic Acids Res. 2016 Jan 4;44(D1):D1220-8. doi: 10.1093/nar/gkv1253. Epub 2015 Nov 17.
8
An overview of molecular fingerprint similarity search in virtual screening.虚拟筛选中分子指纹相似性搜索概述
Expert Opin Drug Discov. 2016;11(2):137-48. doi: 10.1517/17460441.2016.1117070. Epub 2015 Dec 4.
9
ChEMBL: a large-scale bioactivity database for drug discovery.ChEMBL:用于药物发现的大型生物活性数据库。
Nucleic Acids Res. 2012 Jan;40(Database issue):D1100-7. doi: 10.1093/nar/gkr777. Epub 2011 Sep 23.
10
From virtuality to reality - Virtual screening in lead discovery and lead optimization: a medicinal chemistry perspective.从虚拟到现实——基于药物化学视角的先导化合物发现与优化中的虚拟筛选
Curr Opin Drug Discov Devel. 2008 Jul;11(4):559-68.