Suppr超能文献

在Spark上使用Datalog查询进行大数据分析。

Big Data Analytics with Datalog Queries on Spark.

作者信息

Shkapsky Alexander, Yang Mohan, Interlandi Matteo, Chiu Hsuan, Condie Tyson, Zaniolo Carlo

机构信息

University of California, Los Angeles.

出版信息

Proc ACM SIGMOD Int Conf Manag Data. 2016 Jun-Jul;2016:1135-1149. doi: 10.1145/2882903.2915229.

Abstract

There is great interest in exploiting the opportunity provided by cloud computing platforms for large-scale analytics. Among these platforms, Apache Spark is growing in popularity for machine learning and graph analytics. Developing efficient complex analytics in Spark requires deep understanding of both the algorithm at hand and the Spark API or subsystem APIs (e.g., Spark SQL, GraphX). Our BigDatalog system addresses the problem by providing concise declarative specification of complex queries amenable to efficient evaluation. Towards this goal, we propose compilation and optimization techniques that tackle the important problem of efficiently supporting recursion in Spark. We perform an experimental comparison with other state-of-the-art large-scale Datalog systems and verify the efficacy of our techniques and effectiveness of Spark in supporting Datalog-based analytics.

摘要

人们对利用云计算平台提供的机会进行大规模分析有着浓厚兴趣。在这些平台中,Apache Spark在机器学习和图分析方面越来越受欢迎。在Spark中开发高效的复杂分析需要深入理解手头的算法以及Spark API或子系统API(例如,Spark SQL、GraphX)。我们的BigDatalog系统通过提供适合高效评估的复杂查询的简洁声明式规范来解决这个问题。为了实现这一目标,我们提出了编译和优化技术,以解决在Spark中有效支持递归这一重要问题。我们与其他最先进的大规模Datalog系统进行了实验比较,并验证了我们技术的有效性以及Spark在支持基于Datalog的分析方面的有效性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6018/5470845/f60f841ba2fc/nihms863451f1.jpg

相似文献

1
Big Data Analytics with Datalog Queries on Spark.在Spark上使用Datalog查询进行大数据分析。
Proc ACM SIGMOD Int Conf Manag Data. 2016 Jun-Jul;2016:1135-1149. doi: 10.1145/2882903.2915229.
3
Bioinformatics applications on Apache Spark.基于 Apache Spark 的生物信息学应用。
Gigascience. 2018 Aug 1;7(8):giy098. doi: 10.1093/gigascience/giy098.
8
Framing Apache Spark in life sciences.从生命科学角度构建Apache Spark
Heliyon. 2023 Feb 9;9(2):e13368. doi: 10.1016/j.heliyon.2023.e13368. eCollection 2023 Feb.
10
A Distributed Computing Platform for fMRI Big Data Analytics.用于功能磁共振成像大数据分析的分布式计算平台。
IEEE Trans Big Data. 2019 Jun;5(2):109-119. doi: 10.1109/TBDATA.2018.2811508. Epub 2018 Mar 6.

引用本文的文献

1
Optimizing Interactive Development of Data-Intensive Applications.优化数据密集型应用程序的交互式开发。
Proc ACM Symp Cloud Comput. 2016 Oct;2016:510-522. doi: 10.1145/2987550.2987565.

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验