• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

针:一种快速且节省空间的预过滤器,用于估计大量表达实验的定量。

Needle: a fast and space-efficient prefilter for estimating the quantification of very large collections of expression experiments.

机构信息

Efficient Algorithms for Omics Data, Max Planck Institute for Molecular Genetics, Berlin, Germany.

Algorithmic Bioinformatics, Institute for Bioinformatics, FU Berlin, 14195 Berlin, Germany.

出版信息

Bioinformatics. 2022 Sep 2;38(17):4100-4108. doi: 10.1093/bioinformatics/btac492.

DOI:10.1093/bioinformatics/btac492
PMID:35801930
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9438961/
Abstract

MOTIVATION

The ever-growing size of sequencing data is a major bottleneck in bioinformatics as the advances of hardware development cannot keep up with the data growth. Therefore, an enormous amount of data is collected but rarely ever reused, because it is nearly impossible to find meaningful experiments in the stream of raw data.

RESULTS

As a solution, we propose Needle, a fast and space-efficient index which can be built for thousands of experiments in <2 h and can estimate the quantification of a transcript in these experiments in seconds, thereby outperforming its competitors. The basic idea of the Needle index is to create multiple interleaved Bloom filters that each store a set of representative k-mers depending on their multiplicity in the raw data. This is then used to quantify the query.

AVAILABILITY AND IMPLEMENTATION

https://github.com/seqan/needle.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

测序数据的规模不断增长,这是生物信息学中的一个主要瓶颈,因为硬件发展的进步跟不上数据的增长。因此,尽管收集了大量的数据,但由于几乎不可能从原始数据中找到有意义的实验,这些数据很少被重复使用。

结果

作为解决方案,我们提出了 Needle,这是一种快速且节省空间的索引,可以在 <2 小时内为数千个实验构建,并可以在几秒钟内估计这些实验中转录本的定量,从而优于其竞争对手。Needle 索引的基本思想是创建多个交错的布隆过滤器,每个过滤器根据其在原始数据中的多重性存储一组代表 k-mer。然后,这用于量化查询。

可用性和实现

https://github.com/seqan/needle。

补充信息

补充数据可在 Bioinformatics 在线获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/8107a793f2eb/btac492f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/52d4a0c2117f/btac492f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/01f28d0b30bf/btac492f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/aa29add1ad1e/btac492f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/371ac067d01a/btac492f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/5d4e72469ac9/btac492f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/8107a793f2eb/btac492f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/52d4a0c2117f/btac492f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/01f28d0b30bf/btac492f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/aa29add1ad1e/btac492f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/371ac067d01a/btac492f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/5d4e72469ac9/btac492f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/db25/9438961/8107a793f2eb/btac492f6.jpg

相似文献

1
Needle: a fast and space-efficient prefilter for estimating the quantification of very large collections of expression experiments.针:一种快速且节省空间的预过滤器,用于估计大量表达实验的定量。
Bioinformatics. 2022 Sep 2;38(17):4100-4108. doi: 10.1093/bioinformatics/btac492.
2
Fast detection of maximal exact matches via fixed sampling of query K-mers and Bloom filtering of index K-mers.通过查询 K -mer 的固定采样和索引 K-mer 的布隆过滤实现最大精确匹配的快速检测。
Bioinformatics. 2019 Nov 1;35(22):4560-4567. doi: 10.1093/bioinformatics/btz273.
3
PgRC: pseudogenome-based read compressor.PgRC:基于假基因的读压缩程序。
Bioinformatics. 2020 Apr 1;36(7):2082-2089. doi: 10.1093/bioinformatics/btz919.
4
kmtricks: efficient and flexible construction of Bloom filters for large sequencing data collections.kmtricks:用于大型测序数据集的布隆过滤器的高效灵活构建
Bioinform Adv. 2022 Apr 29;2(1):vbac029. doi: 10.1093/bioadv/vbac029. eCollection 2022.
5
kmcEx: memory-frugal and retrieval-efficient encoding of counted k-mers.kmcEx:用于计数 k-mer 的节省内存和高效检索的编码。
Bioinformatics. 2019 Dec 1;35(23):4871-4878. doi: 10.1093/bioinformatics/btz299.
6
CMash: fast, multi-resolution estimation of k-mer-based Jaccard and containment indices.CMash:基于 k-mer 的 Jaccard 和包含指数的快速、多分辨率估计。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i28-i35. doi: 10.1093/bioinformatics/btac237.
7
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
8
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
9
Rapid alignment-free phylogenetic identification of metagenomic sequences.基于快速比对的宏基因组序列系统发育鉴定
Bioinformatics. 2019 Sep 15;35(18):3303-3312. doi: 10.1093/bioinformatics/btz068.
10
An incrementally updatable and scalable system for large-scale sequence search using the Bentley-Saxe transformation.一种使用本特利-萨克斯变换进行大规模序列搜索的增量可更新且可扩展的系统。
Bioinformatics. 2022 Jun 13;38(12):3155-3163. doi: 10.1093/bioinformatics/btac142.

引用本文的文献

1
Transipedia.org: k-mer-based exploration of large RNA sequencing datasets and application to cancer data.Transipedia.org:基于 k-mer 的大型 RNA 测序数据集探索及其在癌症数据中的应用。
Genome Biol. 2024 Oct 10;25(1):266. doi: 10.1186/s13059-024-03413-5.
2
Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA.使用 kmindex 和 ORA 在 TB 级别的复杂基因组数据集上进行索引和实时用户友好查询。
Nat Comput Sci. 2024 Feb;4(2):104-109. doi: 10.1038/s43588-024-00596-6. Epub 2024 Feb 26.
3
Creating and Using Minimizer Sketches in Computational Genomics.

本文引用的文献

1
kmtricks: efficient and flexible construction of Bloom filters for large sequencing data collections.kmtricks:用于大型测序数据集的布隆过滤器的高效灵活构建
Bioinform Adv. 2022 Apr 29;2(1):vbac029. doi: 10.1093/bioadv/vbac029. eCollection 2022.
2
Kidney damage causally affects the brain cortical structure: A Mendelian randomization study.肾脏损伤可导致大脑皮质结构损伤:一项孟德尔随机化研究。
EBioMedicine. 2021 Oct;72:103592. doi: 10.1016/j.ebiom.2021.103592. Epub 2021 Oct 4.
3
Raptor: A fast and space-efficient pre-filter for querying very large collections of nucleotide sequences.
在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
猛禽:一种用于查询超大型核苷酸序列集合的快速且节省空间的预过滤器。
iScience. 2021 Jun 24;24(7):102782. doi: 10.1016/j.isci.2021.102782. eCollection 2021 Jul 23.
4
TPM, FPKM, or Normalized Counts? A Comparative Study of Quantification Measures for the Analysis of RNA-seq Data from the NCI Patient-Derived Models Repository.TPM、FPKM 还是归一化计数?来自 NCI 患者衍生模型资源库的 RNA-seq 数据分析的定量测量方法的比较研究。
J Transl Med. 2021 Jun 22;19(1):269. doi: 10.1186/s12967-021-02936-w.
5
REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets.驯鹿:测序数据集中小段序列存在和丰度的高效索引。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i177-i185. doi: 10.1093/bioinformatics/btaa487.
6
ShinyGO: a graphical gene-set enrichment tool for animals and plants.ShinyGO:一个用于动植物的图形基因集富集工具。
Bioinformatics. 2020 Apr 15;36(8):2628-2629. doi: 10.1093/bioinformatics/btz931.
7
Improved representation of sequence bloom trees.序列 Bloom 树的表示方法改进。
Bioinformatics. 2020 Feb 1;36(3):721-727. doi: 10.1093/bioinformatics/btz662.
8
DREAM-Yara: an exact read mapper for very large databases with short update time.DREAM-Yara:适用于具有较短更新时间的大型数据库的精确读取映射器。
Bioinformatics. 2018 Sep 1;34(17):i766-i772. doi: 10.1093/bioinformatics/bty567.
9
SeqOthello: querying RNA-seq experiments at scale.SeqOthello:大规模查询 RNA-seq 实验。
Genome Biol. 2018 Oct 19;19(1):167. doi: 10.1186/s13059-018-1535-9.
10
Mantis: A Fast, Small, and Exact Large-Scale Sequence-Search Index.螳螂:一种快速、小巧、精确的大规模序列搜索索引。
Cell Syst. 2018 Aug 22;7(2):201-207.e4. doi: 10.1016/j.cels.2018.05.021. Epub 2018 Jun 20.