• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于大规模和多样化生物数据管理与分析的雪花数据仓库。

Snowflake Data Warehouse for Large-Scale and Diverse Biological Data Management and Analysis.

作者信息

Koreeda Tatsuya, Honda Hiroshi, Onami Jun-Ichi

机构信息

CLINIC FOR Group, Nagisa Terrace 4F, 3-1-32 Shibaura, Minato-ku, Tokyo 108-0023, Japan.

Kao Corporation, Bunka, Sumida-ku, Tokyo 131-8501, Japan.

出版信息

Genes (Basel). 2024 Dec 28;16(1):34. doi: 10.3390/genes16010034.

DOI:10.3390/genes16010034
PMID:39858581
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11765040/
Abstract

With the increasing speed of genomic, transcriptomic, and metagenomic data generation driven by the advancement and widespread adoption of next-generation sequencing technologies, the management and analysis of large-scale, diverse data in the fields of life science and biotechnology have become critical challenges. In this paper, we thoroughly discuss the use of cloud data warehouses to address these challenges. Specifically, we propose a data management and analysis framework using Snowflake, a SaaS-based data platform. We further demonstrate its convenience and effectiveness through concrete examples, such as disease variant analysis and in silico drug discovery. By introducing Snowflake, researchers can efficiently manage and analyze a wide array of biological data, enabling the discovery of new biological insights through integrated analysis. Through these specific methodologies and application examples, we aim to accelerate research progress in the field of bioinformatics.

摘要

随着下一代测序技术的进步和广泛应用,基因组学、转录组学和宏基因组学数据生成的速度不断加快,生命科学和生物技术领域大规模、多样化数据的管理和分析已成为关键挑战。在本文中,我们深入探讨了使用云数据仓库来应对这些挑战。具体而言,我们提出了一个使用基于软件即服务(SaaS)的数据平台Snowflake的数据管理和分析框架。我们通过具体示例,如疾病变异分析和计算机辅助药物发现,进一步证明了其便利性和有效性。通过引入Snowflake,研究人员可以高效地管理和分析各种生物数据,通过综合分析发现新的生物学见解。通过这些具体方法和应用示例,我们旨在加速生物信息学领域的研究进展。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/00ad971309be/genes-16-00034-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/7f0e7601a2fe/genes-16-00034-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/c0cf0ab488e5/genes-16-00034-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/c672b40c4e79/genes-16-00034-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/00ad971309be/genes-16-00034-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/7f0e7601a2fe/genes-16-00034-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/c0cf0ab488e5/genes-16-00034-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/c672b40c4e79/genes-16-00034-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/058c/11765040/00ad971309be/genes-16-00034-g004.jpg

相似文献

1
Snowflake Data Warehouse for Large-Scale and Diverse Biological Data Management and Analysis.用于大规模和多样化生物数据管理与分析的雪花数据仓库。
Genes (Basel). 2024 Dec 28;16(1):34. doi: 10.3390/genes16010034.
2
Cloud-based introduction to BASH programming for biologists.基于云的生物学 BASH 编程入门。
Brief Bioinform. 2024 Jul 23;25(Supplement_1). doi: 10.1093/bib/bbae244.
3
Improving data workflow systems with cloud services and use of open data for bioinformatics research.利用云服务改进数据工作流程系统,并利用开放数据进行生物信息学研究。
Brief Bioinform. 2018 Sep 28;19(5):1035-1050. doi: 10.1093/bib/bbx039.
4
Closha 2.0: a bio-workflow design system for massive genome data analysis on high performance cluster infrastructure.Closha 2.0:一个用于高性能集群基础设施上大规模基因组数据分析的生物工作流设计系统。
BMC Bioinformatics. 2024 Nov 12;25(1):353. doi: 10.1186/s12859-024-05963-8.
5
Accumulating computational resource usage of genomic data analysis workflow to optimize cloud computing instance selection.积累基因组数据分析工作流程的计算资源使用情况,以优化云计算实例选择。
Gigascience. 2019 Apr 1;8(4). doi: 10.1093/gigascience/giz052.
6
A Bioinformatics Primer to Data Science, with Examples for Metabolomics.生物信息学数据科学基础教程——代谢组学实例
Methods Mol Biol. 2020;2104:245-263. doi: 10.1007/978-1-0716-0239-3_14.
7
Genomics Virtual Laboratory: A Practical Bioinformatics Workbench for the Cloud.基因组学虚拟实验室:面向云端的实用生物信息学工作台。
PLoS One. 2015 Oct 26;10(10):e0140829. doi: 10.1371/journal.pone.0140829. eCollection 2015.
8
FDA's Activities Supporting Regulatory Application of "Next Gen" Sequencing Technologies.美国食品药品监督管理局支持“下一代”测序技术监管应用的活动。
PDA J Pharm Sci Technol. 2014 Nov-Dec;68(6):626-30. doi: 10.5731/pdajpst.2014.01024.
9
Computational Strategies for Scalable Genomics Analysis.可扩展基因组分析的计算策略。
Genes (Basel). 2019 Dec 6;10(12):1017. doi: 10.3390/genes10121017.
10
Data Management for Heterogeneous Genomic Datasets.异构基因组数据集的数据管理。
IEEE/ACM Trans Comput Biol Bioinform. 2017 Nov-Dec;14(6):1251-1264. doi: 10.1109/TCBB.2016.2576447. Epub 2016 Jun 7.

本文引用的文献

1
Large language models in medicine.医学中的大型语言模型。
Nat Med. 2023 Aug;29(8):1930-1940. doi: 10.1038/s41591-023-02448-8. Epub 2023 Jul 17.
2
A large language model for electronic health records.用于电子健康记录的大型语言模型。
NPJ Digit Med. 2022 Dec 26;5(1):194. doi: 10.1038/s41746-022-00742-2.
3
PubChem 2023 update.PubChem 2023 更新。
Nucleic Acids Res. 2023 Jan 6;51(D1):D1373-D1380. doi: 10.1093/nar/gkac956.
4
Integrating structured and unstructured data for timely prediction of bloodstream infection among children.整合结构化和非结构化数据,以实现对儿童血流感染的及时预测。
Pediatr Res. 2023 Mar;93(4):969-975. doi: 10.1038/s41390-022-02116-6. Epub 2022 Jul 19.
5
Toward a General Framework for Multimodal Big Data Analysis.迈向多模态大数据分析的通用框架。
Big Data. 2022 Oct;10(5):408-424. doi: 10.1089/big.2021.0326. Epub 2022 Jun 6.
6
Data warehouse and medical research.数据仓库与医学研究。
Einstein (Sao Paulo). 2022 Mar 7;20:eED6324. doi: 10.31744/einstein_journal/2022ED6324.
7
Performance and scaling behavior of bioinformatic applications in virtualization environments to create awareness for the efficient use of compute resources.在虚拟化环境中创建生物信息学应用程序的性能和扩展行为,以提高对有效利用计算资源的认识。
PLoS Comput Biol. 2021 Jul 20;17(7):e1009244. doi: 10.1371/journal.pcbi.1009244. eCollection 2021 Jul.
8
An empirical meta-analysis of the life sciences linked open data on the web.网络生命科学链接开放数据的实证元分析。
Sci Data. 2021 Jan 21;8(1):24. doi: 10.1038/s41597-021-00797-y.
9
The mutational constraint spectrum quantified from variation in 141,456 humans.从 141456 名人类个体的变异中量化的突变约束谱。
Nature. 2020 May;581(7809):434-443. doi: 10.1038/s41586-020-2308-7. Epub 2020 May 27.
10
Ten simple rules for providing effective bioinformatics research support.提供有效生物信息学研究支持的十个简单规则。
PLoS Comput Biol. 2020 Mar 26;16(3):e1007531. doi: 10.1371/journal.pcbi.1007531. eCollection 2020 Mar.