• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用 HASTE 工具包快速开发用于科学数据流的云原生智能数据管道。

Rapid development of cloud-native intelligent data pipelines for scientific data streams using the HASTE Toolkit.

机构信息

Department of Information Technology, Uppsala University, Lägerhyddsvägen 2, 75237 Uppsala, Sweden.

Department of Pharmaceutical Biosciences, Uppsala University, Husargatan 3, 75237, Uppsala, Sweden.

出版信息

Gigascience. 2021 Mar 19;10(3). doi: 10.1093/gigascience/giab018.

DOI:10.1093/gigascience/giab018
PMID:33739401
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7976223/
Abstract

BACKGROUND

Large streamed datasets, characteristic of life science applications, are often resource-intensive to process, transport and store. We propose a pipeline model, a design pattern for scientific pipelines, where an incoming stream of scientific data is organized into a tiered or ordered "data hierarchy". We introduce the HASTE Toolkit, a proof-of-concept cloud-native software toolkit based on this pipeline model, to partition and prioritize data streams to optimize use of limited computing resources.

FINDINGS

In our pipeline model, an "interestingness function" assigns an interestingness score to data objects in the stream, inducing a data hierarchy. From this score, a "policy" guides decisions on how to prioritize computational resource use for a given object. The HASTE Toolkit is a collection of tools to adopt this approach. We evaluate with 2 microscopy imaging case studies. The first is a high content screening experiment, where images are analyzed in an on-premise container cloud to prioritize storage and subsequent computation. The second considers edge processing of images for upload into the public cloud for real-time control of a transmission electron microscope.

CONCLUSIONS

Through our evaluation, we created smart data pipelines capable of effective use of storage, compute, and network resources, enabling more efficient data-intensive experiments. We note a beneficial separation between scientific concerns of data priority, and the implementation of this behaviour for different resources in different deployment contexts. The toolkit allows intelligent prioritization to be `bolted on' to new and existing systems - and is intended for use with a range of technologies in different deployment scenarios.

摘要

背景

生命科学应用中的大型流式数据集通常在处理、传输和存储方面都需要大量的资源。我们提出了一种流水线模型,即科学流水线的设计模式,其中传入的科学数据流被组织成分层或有序的“数据层次结构”。我们引入了 HASTE 工具包,这是一个基于该流水线模型的概念验证云原生软件工具包,用于划分和优先处理数据流,以优化有限计算资源的使用。

发现

在我们的流水线模型中,“有趣函数”为流中的数据对象分配有趣分数,从而引出数据层次结构。根据该分数,“策略”指导针对给定对象如何优先使用计算资源的决策。HASTE 工具包是采用这种方法的一组工具。我们通过 2 个显微镜成像案例研究进行评估。第一个是高内涵筛选实验,其中在本地容器云中分析图像,以优先存储和后续计算。第二个考虑边缘处理图像,以便上传到公共云中实时控制透射电子显微镜。

结论

通过评估,我们创建了能够有效利用存储、计算和网络资源的智能数据流管道,从而使数据密集型实验更加高效。我们注意到数据优先级的科学问题与不同部署环境中不同资源的这种行为的实现之间的有益分离。该工具包允许将智能优先级划分“固定”到新的和现有的系统中-并旨在与不同部署场景中的各种技术一起使用。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/1506a66eef46/giab018fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/4e6c147b1c7e/giab018fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/a710b87d499a/giab018fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/ea1691f02f05/giab018fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/52a070a172ec/giab018fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/a70ebb91d3ec/giab018fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/f6d7f9173994/giab018fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/1506a66eef46/giab018fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/4e6c147b1c7e/giab018fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/a710b87d499a/giab018fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/ea1691f02f05/giab018fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/52a070a172ec/giab018fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/a70ebb91d3ec/giab018fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/f6d7f9173994/giab018fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f1c7/7976223/1506a66eef46/giab018fig7.jpg

相似文献

1
Rapid development of cloud-native intelligent data pipelines for scientific data streams using the HASTE Toolkit.利用 HASTE 工具包快速开发用于科学数据流的云原生智能数据管道。
Gigascience. 2021 Mar 19;10(3). doi: 10.1093/gigascience/giab018.
2
Smart Data Placement Using Storage-as-a-Service Model for Big Data Pipelines.基于存储即服务模型的大数据管道智能数据放置。
Sensors (Basel). 2023 Jan 4;23(2):564. doi: 10.3390/s23020564.
3
Macromolecular crowding: chemistry and physics meet biology (Ascona, Switzerland, 10-14 June 2012).大分子拥挤现象:化学与物理邂逅生物学(瑞士阿斯科纳,2012年6月10日至14日)
Phys Biol. 2013 Aug;10(4):040301. doi: 10.1088/1478-3975/10/4/040301. Epub 2013 Aug 2.
4
APRICOT: Advanced Platform for Reproducible Infrastructures in the Cloud via Open Tools.APRICOT:通过开放工具在云中实现可重复使用基础设施的高级平台。
Methods Inf Med. 2020 Dec;59(S 02):e33-e45. doi: 10.1055/s-0040-1712460. Epub 2020 Aug 10.
5
DolphinNext: a distributed data processing platform for high throughput genomics.海豚下一代:一个用于高通量基因组学的分布式数据处理平台。
BMC Genomics. 2020 Apr 19;21(1):310. doi: 10.1186/s12864-020-6714-x.
6
Design and Evaluation of Real-Time Data Storage and Signal Processing in a Long-Range Distributed Acoustic Sensing (DAS) Using Cloud-Based Services.基于云服务的远程分布式声学传感(DAS)中实时数据存储与信号处理的设计与评估
Sensors (Basel). 2024 Sep 13;24(18):5948. doi: 10.3390/s24185948.
7
Design of a Machine Learning-Based Intelligent Middleware Platform for a Heterogeneous Private Edge Cloud System.用于异构私有边缘云系统的基于机器学习的智能中间件平台设计
Sensors (Basel). 2021 Nov 19;21(22):7701. doi: 10.3390/s21227701.
8
Processing shotgun proteomics data on the Amazon cloud with the trans-proteomic pipeline.使用跨蛋白质组学管道在亚马逊云中处理鸟枪法蛋白质组学数据。
Mol Cell Proteomics. 2015 Feb;14(2):399-404. doi: 10.1074/mcp.O114.043380. Epub 2014 Nov 23.
9
Towards Portable Large-Scale Image Processing with High-Performance Computing.迈向基于高性能计算的可移植大规模图像处理。
J Digit Imaging. 2018 Jun;31(3):304-314. doi: 10.1007/s10278-018-0080-0.
10
A service-based approach to cryoEM facility processing pipelines at eBIC.欧洲生物成像中心(eBIC)基于服务的冷冻电子显微镜设施处理流程方法。
Acta Crystallogr D Struct Biol. 2024 Mar 1;80(Pt 3):174-180. doi: 10.1107/S2059798324000986. Epub 2024 Feb 20.

本文引用的文献

1
Deep Learning With Conformal Prediction for Hierarchical Analysis of Large-Scale Whole-Slide Tissue Images.深度学习与一致性预测在大规模全组织切片图像的层次分析中的应用。
IEEE J Biomed Health Inform. 2021 Feb;25(2):371-380. doi: 10.1109/JBHI.2020.2996300. Epub 2021 Feb 5.
2
Container-based bioinformatics with Pachyderm.基于容器的生物信息学与 Pachyderm。
Bioinformatics. 2019 Mar 1;35(5):839-846. doi: 10.1093/bioinformatics/bty699.
3
CellProfiler 3.0: Next-generation image processing for biology.CellProfiler 3.0:生物学的下一代图像处理。
PLoS Biol. 2018 Jul 3;16(7):e2005970. doi: 10.1371/journal.pbio.2005970. eCollection 2018 Jul.
4
htsget: a protocol for securely streaming genomic data.htsget:一种安全流式传输基因组数据的协议。
Bioinformatics. 2019 Jan 1;35(1):119-121. doi: 10.1093/bioinformatics/bty492.
5
Quality Control for High-Throughput Imaging Experiments Using Machine Learning in Cellprofiler.在Cellprofiler中使用机器学习进行高通量成像实验的质量控制
Methods Mol Biol. 2018;1683:89-112. doi: 10.1007/978-1-4939-7357-6_7.
6
ScipionCloud: An integrative and interactive gateway for large scale cryo electron microscopy image processing on commercial and academic clouds.ScipionCloud:一个用于商业和学术云的大规模冷冻电子显微镜图像处理的集成和交互式门户。
J Struct Biol. 2017 Oct;200(1):20-27. doi: 10.1016/j.jsb.2017.06.004. Epub 2017 Jun 26.
7
Robust High-dimensional Bioinformatics Data Streams Mining by ODR-ioVFDT.基于 ODR-ioVFDT 的稳健高维生物信息数据流挖掘。
Sci Rep. 2017 Feb 23;7:43167. doi: 10.1038/srep43167.
8
Scipion: A software framework toward integration, reproducibility and validation in 3D electron microscopy.Scipion:一个用于三维电子显微镜集成、可重复性和验证的软件框架。
J Struct Biol. 2016 Jul;195(1):93-9. doi: 10.1016/j.jsb.2016.04.010. Epub 2016 Apr 20.
9
Big Data: Astronomical or Genomical?大数据:天文学的还是基因组学的?
PLoS Biol. 2015 Jul 7;13(7):e1002195. doi: 10.1371/journal.pbio.1002195. eCollection 2015 Jul.
10
Streaming visualisation of quantitative mass spectrometry data based on a novel raw signal decomposition method.基于一种新型原始信号分解方法的定量质谱数据流式可视化
Proteomics. 2015 Apr;15(8):1419-27. doi: 10.1002/pmic.201400428. Epub 2015 Mar 9.