• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种基于特征值比的方法,用于从全基因组测序数据推断种群结构。

An eigenvalue ratio approach to inferring population structure from whole genome sequencing data.

机构信息

Department of Statistics and Actuarial Science, The University of Hong Kong, Hong Kong SAR, China.

School of Data Science, The Chinese University of Hong Kong (Shenzhen), Shenzhen, China.

出版信息

Biometrics. 2023 Jun;79(2):891-902. doi: 10.1111/biom.13691. Epub 2022 May 19.

DOI:10.1111/biom.13691
PMID:35532153
Abstract

Inference of population structure from genetic data plays an important role in population and medical genetics studies. With the advancement and decreasing cost of sequencing technology, the increasingly available whole genome sequencing data provide much richer information about the underlying population structure. The traditional method originally developed for array-based genotype data for computing and selecting top principal components (PCs) that capture population structure may not perform well on sequencing data for two reasons. First, the number of genetic variants p is much larger than the sample size n in sequencing data such that the sample-to-marker ratio is nearly zero, violating the assumption of the Tracy-Widom test used in their method. Second, their method might not be able to handle the linkage disequilibrium well in sequencing data. To resolve those two practical issues, we propose a new method called ERStruct to determine the number of top informative PCs based on sequencing data. More specifically, we propose to use the ratio of consecutive eigenvalues as a more robust test statistic, and then we approximate its null distribution using modern random matrix theory. Both simulation studies and applications to two public data sets from the HapMap 3 and the 1000 Genomes Projects demonstrate the empirical performance of our ERStruct method.

摘要

从遗传数据中推断种群结构在人口和医学遗传学研究中起着重要作用。随着测序技术的进步和成本的降低,越来越多的全基因组测序数据为潜在的种群结构提供了更丰富的信息。传统的方法最初是为基于阵列的基因型数据开发的,用于计算和选择捕获种群结构的顶级主成分 (PC),但由于两个原因,该方法在测序数据上的性能可能不佳。首先,在测序数据中,遗传变异数 p 远大于样本量 n,以至于样本与标记的比例 几乎为零,违反了他们方法中使用的 Tracy-Widom 检验的假设。其次,他们的方法可能无法很好地处理测序数据中的连锁不平衡。为了解决这两个实际问题,我们提出了一种称为 ERStruct 的新方法,用于根据测序数据确定顶级信息丰富 PC 的数量。更具体地说,我们建议使用连续特征值的比值作为更稳健的检验统计量,然后使用现代随机矩阵理论来近似其零分布。模拟研究和对 HapMap 3 和 1000 基因组计划两个公共数据集的应用表明,我们的 ERStruct 方法具有良好的经验性能。

相似文献

1
An eigenvalue ratio approach to inferring population structure from whole genome sequencing data.一种基于特征值比的方法,用于从全基因组测序数据推断种群结构。
Biometrics. 2023 Jun;79(2):891-902. doi: 10.1111/biom.13691. Epub 2022 May 19.
2
ERStruct: a fast Python package for inferring the number of top principal components from whole genome sequencing data.ERStruct:一个快速的 Python 包,用于从全基因组测序数据中推断出最重要的主成分数量。
BMC Bioinformatics. 2023 May 2;24(1):180. doi: 10.1186/s12859-023-05305-0.
3
Ancestral informative marker selection and population structure visualization using sparse Laplacian eigenfunctions.利用稀疏拉普拉斯特征函数进行祖先信息标记选择和群体结构可视化。
PLoS One. 2010 Nov 4;5(11):e13734. doi: 10.1371/journal.pone.0013734.
4
Detection of identity by descent using next-generation whole genome sequencing data.利用下一代全基因组测序数据进行血统身份检测。
BMC Bioinformatics. 2012 Jun 6;13:121. doi: 10.1186/1471-2105-13-121.
5
Eigenvalue significance testing for genetic association.基因关联的特征值显著性检验
Biometrics. 2018 Jun;74(2):439-447. doi: 10.1111/biom.12767. Epub 2017 Aug 29.
6
Estimating individual admixture proportions from next generation sequencing data.从下一代测序数据估计个体混合比例。
Genetics. 2013 Nov;195(3):693-702. doi: 10.1534/genetics.113.154138. Epub 2013 Sep 11.
7
fastSTRUCTURE: variational inference of population structure in large SNP data sets.fastSTRUCTURE:大型单核苷酸多态性(SNP)数据集中群体结构的变分推断
Genetics. 2014 Jun;197(2):573-89. doi: 10.1534/genetics.114.164350. Epub 2014 Apr 2.
8
Using genotype array data to compare multi- and single-sample variant calls and improve variant call sets from deep coverage whole-genome sequencing data.利用基因型阵列数据比较多样本和单样本变异检测结果,并改进来自深度覆盖全基因组测序数据的变异检测集。
Bioinformatics. 2017 Apr 15;33(8):1147-1153. doi: 10.1093/bioinformatics/btw786.
9
Inferring demography from runs of homozygosity in whole-genome sequence, with correction for sequence errors.基于全基因组序列中的同型纯合区域推断人口统计学特征,并对序列错误进行校正。
Mol Biol Evol. 2013 Sep;30(9):2209-23. doi: 10.1093/molbev/mst125. Epub 2013 Jul 10.
10
Choice of population structure informative principal components for adjustment in a case-control study.用于病例对照研究中调整的群体结构信息主成分的选择。
BMC Genet. 2011 Jul 19;12:64. doi: 10.1186/1471-2156-12-64.

引用本文的文献

1
ERStruct: a fast Python package for inferring the number of top principal components from whole genome sequencing data.ERStruct:一个快速的 Python 包,用于从全基因组测序数据中推断出最重要的主成分数量。
BMC Bioinformatics. 2023 May 2;24(1):180. doi: 10.1186/s12859-023-05305-0.