• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

Galaxy 中使用深度学习的工具推荐系统。

Tool recommender system in Galaxy using deep learning.

机构信息

Bioinformatics Group, Department of Computer Science, University of Freiburg, Georges-Koehler-Allee 106, 79110 Freiburg, Germany.

Signalling Research Centres BIOSS and CIBSS, University of Freiburg, Schaenzlestr. 18, 79104 Freiburg, Germany.

出版信息

Gigascience. 2021 Jan 6;10(1). doi: 10.1093/gigascience/giaa152.

DOI:10.1093/gigascience/giaa152
PMID:33404053
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7786169/
Abstract

BACKGROUND

Galaxy is a web-based and open-source scientific data-processing platform. Researchers compose pipelines in Galaxy to analyse scientific data. These pipelines, also known as workflows, can be complex and difficult to create from thousands of tools, especially for researchers new to Galaxy. To help researchers with creating workflows, a system is developed to recommend tools that can facilitate further data analysis.

FINDINGS

A model is developed to recommend tools using a deep learning approach by analysing workflows composed by researchers on the European Galaxy server. The higher-order dependencies in workflows, represented as directed acyclic graphs, are learned by training a gated recurrent units neural network, a variant of a recurrent neural network. In the neural network training, the weights of tools used are derived from their usage frequencies over time and the sequences of tools are uniformly sampled from training data. Hyperparameters of the neural network are optimized using Bayesian optimization. Mean accuracy of 98% in recommending tools is achieved for the top-1 metric.

CONCLUSIONS

The model is accessed by a Galaxy API to provide researchers with recommended tools in an interactive manner using multiple user interface integrations on the European Galaxy server. High-quality and highly used tools are shown at the top of the recommendations. The scripts and data to create the recommendation system are available under MIT license at https://github.com/anuprulez/galaxy_tool_recommendation.

摘要

背景

Galaxy 是一个基于网络的开源科学数据处理平台。研究人员在 Galaxy 中编写流程来分析科学数据。这些流程,也称为工作流,可能非常复杂,并且很难从数千个工具中创建,尤其是对于新接触 Galaxy 的研究人员而言。为了帮助研究人员创建工作流,开发了一种系统,通过分析欧洲 Galaxy 服务器上的研究人员编写的工作流,来推荐可以促进进一步数据分析的工具。

发现

通过分析在欧洲 Galaxy 服务器上编写的工作流,使用深度学习方法开发了一种模型来推荐工具。通过训练门控循环单元神经网络(循环神经网络的一种变体)来学习工作流中的高阶依赖关系,该网络表示为有向无环图。在神经网络训练中,工具的权重是从其随时间的使用频率和从训练数据中均匀采样的工具序列中得出的。使用贝叶斯优化来优化神经网络的超参数。在 top-1 指标中,推荐工具的平均准确率达到 98%。

结论

该模型通过 Galaxy API 访问,通过欧洲 Galaxy 服务器上的多个用户界面集成以交互方式为研究人员提供推荐工具。高质量和高使用率的工具会显示在推荐的顶部。创建推荐系统的脚本和数据可在 MIT 许可证下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/870ca28b49ca/giaa152fig9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/299302457294/giaa152fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/91006110b7f9/giaa152fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/273b75df45ab/giaa152fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/bf4e5c28ffb1/giaa152fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/cef04c561ea9/giaa152fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/1201ed0598ae/giaa152fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/c8795ff2db93/giaa152fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/a2d19f499499/giaa152fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/870ca28b49ca/giaa152fig9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/299302457294/giaa152fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/91006110b7f9/giaa152fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/273b75df45ab/giaa152fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/bf4e5c28ffb1/giaa152fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/cef04c561ea9/giaa152fig5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/1201ed0598ae/giaa152fig6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/c8795ff2db93/giaa152fig7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/a2d19f499499/giaa152fig8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a70a/7786169/870ca28b49ca/giaa152fig9.jpg

相似文献

1
Tool recommender system in Galaxy using deep learning.Galaxy 中使用深度学习的工具推荐系统。
Gigascience. 2021 Jan 6;10(1). doi: 10.1093/gigascience/giaa152.
2
Transformer-based tool recommendation system in Galaxy.基于 Transformer 的 Galaxy 工具推荐系统。
BMC Bioinformatics. 2023 Nov 27;24(1):446. doi: 10.1186/s12859-023-05573-w.
3
BTR: a bioinformatics tool recommendation system.BTR:一个生物信息学工具推荐系统。
Bioinformatics. 2024 May 2;40(5). doi: 10.1093/bioinformatics/btae275.
4
An accessible infrastructure for artificial intelligence using a Docker-based JupyterLab in Galaxy.利用 Galaxy 中基于 Docker 的 JupyterLab 实现人工智能的可访问基础设施。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad028. Epub 2023 Apr 26.
5
The COMBAT-TB Workbench: Making Powerful Mycobacterium tuberculosis Bioinformatics Accessible.COMBAT-TB 工作台:让强大的结核分枝杆菌生物信息学变得易于访问。
mSphere. 2022 Feb 23;7(1):e0099121. doi: 10.1128/msphere.00991-21. Epub 2022 Feb 9.
6
NanoGalaxy: Nanopore long-read sequencing data analysis in Galaxy.NanoGalaxy:Galaxy 中的纳米孔长读测序数据分析。
Gigascience. 2020 Oct 17;9(10). doi: 10.1093/gigascience/giaa105.
7
Disseminating Metaproteomic Informatics Capabilities and Knowledge Using the Galaxy-P Framework.使用Galaxy-P框架传播元蛋白质组学信息学能力和知识。
Proteomes. 2018 Jan 31;6(1):7. doi: 10.3390/proteomes6010007.
8
The Planemo toolkit for developing, deploying, and executing scientific data analyses in Galaxy and beyond.Planemo 工具包,用于在 Galaxy 内外开发、部署和执行科学数据分析。
Genome Res. 2023 Feb;33(2):261-268. doi: 10.1101/gr.276963.122. Epub 2023 Feb 24.
9
Osiris: accessible and reproducible phylogenetic and phylogenomic analyses within the Galaxy workflow management system.Osiris:在 Galaxy 工作流管理系统中进行可访问和可重复的系统发生和系统基因组学分析。
BMC Bioinformatics. 2014 Jul 2;15:230. doi: 10.1186/1471-2105-15-230.
10
APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data.APOSTL:用于亲和蛋白质组学数据可重复分析的交互式星系管道
J Proteome Res. 2016 Dec 2;15(12):4747-4754. doi: 10.1021/acs.jproteome.6b00660. Epub 2016 Oct 21.

引用本文的文献

1
BTR: a bioinformatics tool recommendation system.BTR:一个生物信息学工具推荐系统。
Bioinformatics. 2024 May 2;40(5). doi: 10.1093/bioinformatics/btae275.
2
Transformer-based tool recommendation system in Galaxy.基于 Transformer 的 Galaxy 工具推荐系统。
BMC Bioinformatics. 2023 Nov 27;24(1):446. doi: 10.1186/s12859-023-05573-w.
3
Perspectives on automated composition of workflows in the life sciences.生命科学中工作流自动化组合的观点。

本文引用的文献

1
Semantic workflows for benchmark challenges: Enhancing comparability, reusability and reproducibility.用于基准挑战的语义工作流:提高可比性、可重用性和可重复性。
Pac Symp Biocomput. 2019;24:208-219.
2
Developing reproducible bioinformatics analysis workflows for heterogeneous computing environments to support African genomics.为异构计算环境开发可重现的生物信息学分析工作流程,以支持非洲基因组学。
BMC Bioinformatics. 2018 Nov 29;19(1):457. doi: 10.1186/s12859-018-2446-1.
3
Automated workflow composition in mass spectrometry-based proteomics.基于质谱的蛋白质组学中的自动化工作流组合。
F1000Res. 2021 Sep 7;10:897. doi: 10.12688/f1000research.54159.1. eCollection 2021.
4
The role of metadata in reproducible computational research.元数据在可重复计算研究中的作用。
Patterns (N Y). 2021 Sep 10;2(9):100322. doi: 10.1016/j.patter.2021.100322.
Bioinformatics. 2019 Feb 15;35(4):656-664. doi: 10.1093/bioinformatics/bty646.
4
Community-Driven Data Analysis Training for Biology.生物学的社区驱动数据分析培训。
Cell Syst. 2018 Jun 27;6(6):752-758.e1. doi: 10.1016/j.cels.2018.05.012.
5
The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update.Galaxy 平台:用于可访问、可重复和协作的生物医学分析:2018 年更新。
Nucleic Acids Res. 2018 Jul 2;46(W1):W537-W544. doi: 10.1093/nar/gky379.
6
Integrating single-cell transcriptomic data across different conditions, technologies, and species.整合不同条件、技术和物种的单细胞转录组数据。
Nat Biotechnol. 2018 Jun;36(5):411-420. doi: 10.1038/nbt.4096. Epub 2018 Apr 2.
7
Cluster Flow: A user-friendly bioinformatics workflow tool.聚类流程:一个用户友好的生物信息学工作流程工具。
F1000Res. 2016 Dec 6;5:2824. doi: 10.12688/f1000research.10335.2. eCollection 2016.
8
UMI-tools: modeling sequencing errors in Unique Molecular Identifiers to improve quantification accuracy.UMI-tools:对独特分子标识符中的测序错误进行建模以提高定量准确性。
Genome Res. 2017 Mar;27(3):491-499. doi: 10.1101/gr.209601.116. Epub 2017 Jan 18.
9
Representing higher-order dependencies in networks.表示网络中的高阶依赖关系。
Sci Adv. 2016 May 20;2(5):e1600028. doi: 10.1126/sciadv.1600028. eCollection 2016 May.
10
Science Concierge: A Fast Content-Based Recommendation System for Scientific Publications.科学助手:一种基于内容的科学出版物快速推荐系统。
PLoS One. 2016 Jul 6;11(7):e0158423. doi: 10.1371/journal.pone.0158423. eCollection 2016.