• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

卡利斯:在 R 中用于局部祖源推断的李-斯蒂芬斯模型的现代实现。

kalis: a modern implementation of the Li & Stephens model for local ancestry inference in R.

机构信息

Department of Mathematical Sciences, Durham University, Stockton Road, Durham, DH1 3LE, UK.

Department of Genetics, Yale School of Medicine, 333 Cedar Street, New Haven, CT, 06520, USA.

出版信息

BMC Bioinformatics. 2024 Feb 28;25(1):86. doi: 10.1186/s12859-024-05688-8.

DOI:10.1186/s12859-024-05688-8
PMID:38418970
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10900616/
Abstract

BACKGROUND

Approximating the recent phylogeny of N phased haplotypes at a set of variants along the genome is a core problem in modern population genomics and central to performing genome-wide screens for association, selection, introgression, and other signals. The Li & Stephens (LS) model provides a simple yet powerful hidden Markov model for inferring the recent ancestry at a given variant, represented as an distance matrix based on posterior decodings.

RESULTS

We provide a high-performance engine to make these posterior decodings readily accessible with minimal pre-processing via an easy to use package kalis, in the statistical programming language R. kalis enables investigators to rapidly resolve the ancestry at loci of interest and developers to build a range of variant-specific ancestral inference pipelines on top. kalis exploits both multi-core parallelism and modern CPU vector instruction sets to enable scaling to hundreds of thousands of genomes.

CONCLUSIONS

The resulting distance matrices accessible via kalis enable local ancestry, selection, and association studies in modern large scale genomic datasets.

摘要

背景

在基因组上的一组变体处,近似于 N 相单倍型的最近系统发育是现代群体基因组学中的一个核心问题,也是进行全基因组关联、选择、渐渗和其他信号检测的关键。Li 和 Stephens(LS)模型提供了一种简单而强大的隐马尔可夫模型,用于推断给定变体的最近祖先,该模型表示为基于后验解码的距离矩阵。

结果

我们提供了一个高性能引擎,通过一个简单易用的 R 编程语言中的 kalis 包,以最小的预处理来实现这些后验解码,使它们易于访问。kalis 使研究人员能够快速解析感兴趣的基因座的祖先,并使开发人员能够在此基础上构建一系列特定于变体的祖先推断管道。kalis 利用多核并行性和现代 CPU 向量指令集来实现对数十万基因组的扩展。

结论

通过 kalis 访问的生成距离矩阵可用于现代大规模基因组数据集的局部祖先、选择和关联研究。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/9cc9ac438fdf/12859_2024_5688_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/058d53b9af64/12859_2024_5688_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/3e659bb7844c/12859_2024_5688_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/06e96916e384/12859_2024_5688_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/d8b0cff01fc1/12859_2024_5688_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/9cc9ac438fdf/12859_2024_5688_Fig5_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/058d53b9af64/12859_2024_5688_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/3e659bb7844c/12859_2024_5688_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/06e96916e384/12859_2024_5688_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/d8b0cff01fc1/12859_2024_5688_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1267/10900616/9cc9ac438fdf/12859_2024_5688_Fig5_HTML.jpg

相似文献

1
kalis: a modern implementation of the Li & Stephens model for local ancestry inference in R.卡利斯:在 R 中用于局部祖源推断的李-斯蒂芬斯模型的现代实现。
BMC Bioinformatics. 2024 Feb 28;25(1):86. doi: 10.1186/s12859-024-05688-8.
2
Fast, accurate local ancestry inference with FLARE.使用 FLARE 实现快速、准确的局部亲缘关系推断。
Am J Hum Genet. 2023 Feb 2;110(2):326-335. doi: 10.1016/j.ajhg.2022.12.010. Epub 2023 Jan 6.
3
Minimal positional substring cover is a haplotype threading alternative to Li and Stephens model.最小位置子串覆盖是替代 Li 和 Stephens 模型的单倍型连接方法。
Genome Res. 2023 Jul;33(7):1007-1014. doi: 10.1101/gr.277673.123. Epub 2023 Jun 14.
4
Hidden Markov Models in Population Genomics.群体基因组学中的隐马尔可夫模型
Methods Mol Biol. 2017;1552:149-164. doi: 10.1007/978-1-4939-6753-7_11.
5
Blockwise HMM computation for large-scale population genomic inference.分块隐马尔可夫模型计算在大规模群体基因组推断中的应用。
Bioinformatics. 2012 Aug 1;28(15):2008-15. doi: 10.1093/bioinformatics/bts314. Epub 2012 May 28.
6
Estimating variable effective population sizes from multiple genomes: a sequentially markov conditional sampling distribution approach.从多个基因组估计可变有效种群大小:一种顺序马尔可夫条件抽样分布方法。
Genetics. 2013 Jul;194(3):647-62. doi: 10.1534/genetics.112.149096. Epub 2013 Apr 22.
7
Detecting structure of haplotypes and local ancestry.检测单倍型和局部祖源结构。
Genetics. 2014 Mar;196(3):625-42. doi: 10.1534/genetics.113.160697. Epub 2014 Jan 3.
8
Ancestral population genomics using coalescence hidden Markov models and heuristic optimisation algorithms.使用合并隐马尔可夫模型和启发式优化算法的祖先群体基因组学。
Comput Biol Chem. 2015 Aug;57:80-92. doi: 10.1016/j.compbiolchem.2015.02.001. Epub 2015 Mar 5.
9
Minimal Positional Substring Cover: A Haplotype Threading Alternative to Li & Stephens Model.最小位置子串覆盖:一种替代李和斯蒂芬斯模型的单倍型穿线法
bioRxiv. 2023 Jan 6:2023.01.04.522803. doi: 10.1101/2023.01.04.522803.
10
Robust inference of population size histories from genomic sequencing data.从基因组测序数据中推断种群规模历史。
PLoS Comput Biol. 2022 Sep 16;18(9):e1010419. doi: 10.1371/journal.pcbi.1010419. eCollection 2022 Sep.

本文引用的文献

1
Fast two-stage phasing of large-scale sequence data.大规模序列数据的快速两阶段相位测定。
Am J Hum Genet. 2021 Oct 7;108(10):1880-1890. doi: 10.1016/j.ajhg.2021.08.005. Epub 2021 Sep 2.
2
Genotype imputation using the Positional Burrows Wheeler Transform.基于位置的 Burrows-Wheeler 变换的基因型推断。
PLoS Genet. 2020 Nov 16;16(11):e1009049. doi: 10.1371/journal.pgen.1009049. eCollection 2020 Nov.
3
Inferring whole-genome histories in large population datasets.在大型人群数据集推断全基因组历史。
Nat Genet. 2019 Sep;51(9):1330-1338. doi: 10.1038/s41588-019-0483-y. Epub 2019 Sep 2.
4
A method for genome-wide genealogy estimation for thousands of samples.一种用于对数千个样本进行全基因组谱系估计的方法。
Nat Genet. 2019 Sep;51(9):1321-1329. doi: 10.1038/s41588-019-0484-x. Epub 2019 Sep 2.
5
An average-case sublinear forward algorithm for the haploid Li and Stephens model.用于单倍体李和斯蒂芬斯模型的平均情况次线性前向算法。
Algorithms Mol Biol. 2019 Apr 2;14:11. doi: 10.1186/s13015-019-0144-9. eCollection 2019.
6
Na Li and Matthew Stephens on Modeling Linkage Disequilibrium.纳·李和马修·斯蒂芬斯谈连锁不平衡建模。
Genetics. 2016 Jul;203(3):1005-6. doi: 10.1534/genetics.116.191817.
7
A global reference for human genetic variation.人类遗传变异的全球参考。
Nature. 2015 Oct 1;526(7571):68-74. doi: 10.1038/nature15393.
8
Genetic origins of lactase persistence and the spread of pastoralism in Africa.乳糖酶持续存在的遗传起源和非洲畜牧业的传播。
Am J Hum Genet. 2014 Apr 3;94(4):496-510. doi: 10.1016/j.ajhg.2014.02.009. Epub 2014 Mar 13.
9
Inference of population structure using dense haplotype data.利用高密度单倍型数据推断种群结构。
PLoS Genet. 2012 Jan;8(1):e1002453. doi: 10.1371/journal.pgen.1002453. Epub 2012 Jan 26.
10
Lactose digestion and the evolutionary genetics of lactase persistence.乳糖消化与乳糖酶持久性的进化遗传学
Hum Genet. 2009 Jan;124(6):579-91. doi: 10.1007/s00439-008-0593-6. Epub 2008 Nov 26.