• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用R和生物导体进行可扩展基因组学研究。

Scalable Genomics with R and Bioconductor.

作者信息

Lawrence Michael, Morgan Martin

机构信息

Genentech, 1 DNA Way, South San Francisco, California 94080, USA

Fred Hutchinson Cancer Research Center, 1100 Fairview Ave. N., P.O. Box 19024, Seattle, Washington 98109, USA

出版信息

Stat Sci. 2014 May;29(2):214-226. doi: 10.1214/14-STS476. Epub 2014 Aug 18.

DOI:10.1214/14-STS476
PMID:28018047
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5181792/
Abstract

This paper reviews strategies for solving problems encountered when analyzing large genomic data sets and describes the implementation of those strategies in R by packages from the Bioconductor project. We treat the scalable processing, summarization and visualization of big genomic data. The general ideas are well established and include restrictive queries, compression, iteration and parallel computing. We demonstrate the strategies by applying Bioconductor packages to the detection and analysis of genetic variants from a whole genome sequencing experiment.

摘要

本文回顾了在分析大型基因组数据集时遇到的问题的解决策略,并描述了Bioconductor项目中的软件包在R语言中对这些策略的实现。我们探讨了大型基因组数据的可扩展处理、汇总和可视化。其总体思路已很成熟,包括限制性查询、压缩、迭代和并行计算。我们通过应用Bioconductor软件包对全基因组测序实验中的遗传变异进行检测和分析来展示这些策略。

相似文献

1
Scalable Genomics with R and Bioconductor.使用R和生物导体进行可扩展基因组学研究。
Stat Sci. 2014 May;29(2):214-226. doi: 10.1214/14-STS476. Epub 2014 Aug 18.
2
RGMQL: scalable and interoperable computing of heterogeneous omics big data and metadata in R/Bioconductor.RGMQL:在 R/Bioconductor 中可扩展和互操作的异构组学大数据和元数据的计算。
BMC Bioinformatics. 2022 Apr 7;23(1):123. doi: 10.1186/s12859-022-04648-4.
3
GenomicDistributions: fast analysis of genomic intervals with Bioconductor.基因组分布:使用 Bioconductor 快速分析基因组区间
BMC Genomics. 2022 Apr 12;23(1):299. doi: 10.1186/s12864-022-08467-y.
4
The Bioconductor channel in F1000Research.F1000研究中的生物导体通道。
F1000Res. 2015 Jul 10;4:217. doi: 10.12688/f1000research.6758.2. eCollection 2015.
5
Software for computing and annotating genomic ranges.基因组范围计算和注释软件。
PLoS Comput Biol. 2013;9(8):e1003118. doi: 10.1371/journal.pcbi.1003118. Epub 2013 Aug 8.
6
Genomic Annotation Resources in R/Bioconductor.R/Bioconductor中的基因组注释资源
Methods Mol Biol. 2016;1418:67-90. doi: 10.1007/978-1-4939-3578-9_4.
7
Interactive Exploration on Large Genomic Datasets.大型基因组数据集的交互式探索
EECS Tech Rep Ser. 2016 Spring;2016. Epub 2016 May 16.
8
'Big data', Hadoop and cloud computing in genomics.基因组学中的“大数据”、Hadoop 和云计算。
J Biomed Inform. 2013 Oct;46(5):774-81. doi: 10.1016/j.jbi.2013.07.001. Epub 2013 Jul 18.
9
Sequence Surveyor: leveraging overview for scalable genomic alignment visualization.序列勘测器:利用概览实现可扩展的基因组比对可视化。
IEEE Trans Vis Comput Graph. 2011 Dec;17(12):2392-401. doi: 10.1109/TVCG.2011.232.
10
ReactomePA: an R/Bioconductor package for reactome pathway analysis and visualization.ReactomePA:一个用于Reactome通路分析和可视化的R/Bioconductor软件包。
Mol Biosyst. 2016 Feb;12(2):477-9. doi: 10.1039/c5mb00663e.

引用本文的文献

1
Comparative analyses of vertebrate CPEB proteins define two subfamilies with coordinated yet distinct functions in post-transcriptional gene regulation.脊椎动物 CPEB 蛋白的比较分析定义了两个亚家族,它们在转录后基因调控中具有协调但不同的功能。
Genome Biol. 2022 Sep 12;23(1):192. doi: 10.1186/s13059-022-02759-y.
2
Evidence of Transcriptional Shutoff by Pathogenic Viral Haemorrhagic Septicaemia Virus in Rainbow Trout.鱼类病毒性出血败血症病毒转录关闭的证据。
Viruses. 2021 Jun 11;13(6):1129. doi: 10.3390/v13061129.
3
Big data in multi-block data analysis: An approach to parallelizing Partial Least Squares Mode B algorithm.

本文引用的文献

1
Software for computing and annotating genomic ranges.基因组范围计算和注释软件。
PLoS Comput Biol. 2013;9(8):e1003118. doi: 10.1371/journal.pcbi.1003118. Epub 2013 Aug 8.
2
The variant call format and VCFtools.变异调用格式和 VCFtools。
Bioinformatics. 2011 Aug 1;27(15):2156-8. doi: 10.1093/bioinformatics/btr330. Epub 2011 Jun 7.
3
BigWig and BigBed: enabling browsing of large distributed datasets.BigWig 和 BigBed:支持浏览大型分布式数据集。
多块数据分析中的大数据:一种并行化偏最小二乘模式B算法的方法。
Heliyon. 2019 Apr 29;5(4):e01451. doi: 10.1016/j.heliyon.2019.e01451. eCollection 2019 Apr.
4
Promoter Architecture and Sex-Specific Gene Expression in Daphnia pulex.蚤状溞的启动子结构与性别特异性基因表达
Genetics. 2016 Oct;204(2):593-612. doi: 10.1534/genetics.116.193334. Epub 2016 Aug 31.
5
Orchestrating high-throughput genomic analysis with Bioconductor.使用Bioconductor编排高通量基因组分析。
Nat Methods. 2015 Feb;12(2):115-21. doi: 10.1038/nmeth.3252.
Bioinformatics. 2010 Sep 1;26(17):2204-7. doi: 10.1093/bioinformatics/btq351. Epub 2010 Jul 17.
4
The Sequence Alignment/Map format and SAMtools.序列比对/映射格式和 SAMtools。
Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.
5
Bioconductor: open software development for computational biology and bioinformatics.生物导体:用于计算生物学和生物信息学的开源软件开发。
Genome Biol. 2004;5(10):R80. doi: 10.1186/gb-2004-5-10-r80. Epub 2004 Sep 15.
6
The human genome browser at UCSC.加州大学圣克鲁兹分校的人类基因组浏览器。
Genome Res. 2002 Jun;12(6):996-1006. doi: 10.1101/gr.229102.