• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用连锁不平衡检测不同 NGS 数据类型中的样本交换。

Detecting sample swaps in diverse NGS data types using linkage disequilibrium.

机构信息

Department of Pathology and Center for Cancer Research, Massachusetts General Hospital and Harvard Medical School, Boston, MA, 02114, USA.

Broad Institute of MIT and Harvard, Cambridge, MA, 02142, USA.

出版信息

Nat Commun. 2020 Jul 29;11(1):3697. doi: 10.1038/s41467-020-17453-5.

DOI:10.1038/s41467-020-17453-5
PMID:32728101
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7391710/
Abstract

As the number of genomics datasets grows rapidly, sample mislabeling has become a high stakes issue. We present CrosscheckFingerprints (Crosscheck), a tool for quantifying sample-relatedness and detecting incorrectly paired sequencing datasets from different donors. Crosscheck outperforms similar methods and is effective even when data are sparse or from different assays. Application of Crosscheck to 8851 ENCODE ChIP-, RNA-, and DNase-seq datasets enabled us to identify and correct dozens of mislabeled samples and ambiguous metadata annotations, representing ~1% of ENCODE datasets.

摘要

随着基因组学数据集数量的快速增长,样本标记错误已成为一个高风险问题。我们提出了 CrosscheckFingerprints(Crosscheck),这是一种用于量化样本相关性和检测来自不同供体的错误配对测序数据集的工具。Crosscheck 的性能优于类似的方法,即使在数据稀疏或来自不同检测时也非常有效。将 Crosscheck 应用于 8851 个 ENCODE ChIP、RNA 和 DNase-seq 数据集,使我们能够识别和纠正数十个标记错误的样本和模糊的元数据注释,这些样本和注释约占 ENCODE 数据集的 1%。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e9ec/7391710/98d7e5297732/41467_2020_17453_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e9ec/7391710/260cafc241ce/41467_2020_17453_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e9ec/7391710/98d7e5297732/41467_2020_17453_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e9ec/7391710/260cafc241ce/41467_2020_17453_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/e9ec/7391710/98d7e5297732/41467_2020_17453_Fig2_HTML.jpg

相似文献

1
Detecting sample swaps in diverse NGS data types using linkage disequilibrium.利用连锁不平衡检测不同 NGS 数据类型中的样本交换。
Nat Commun. 2020 Jul 29;11(1):3697. doi: 10.1038/s41467-020-17453-5.
2
: A Tool for Searching Putative Factors Regulating Gene Expression Using ChIP-seq Data.: 一种使用 ChIP-seq 数据搜索调控基因表达的潜在因子的工具。
Int J Biol Sci. 2018 Sep 7;14(12):1724-1731. doi: 10.7150/ijbs.28850. eCollection 2018.
3
Integration of ENCODE RNAseq and eCLIP Data Sets.ENCODE RNA测序和eCLIP数据集的整合。
Methods Mol Biol. 2018;1720:111-129. doi: 10.1007/978-1-4939-7540-2_8.
4
NGS-QC Generator: A Quality Control System for ChIP-Seq and Related Deep Sequencing-Generated Datasets.NGS-QC生成器:一种用于ChIP-Seq及相关深度测序生成数据集的质量控制系统。
Methods Mol Biol. 2016;1418:243-65. doi: 10.1007/978-1-4939-3578-9_13.
5
ePIANNO: ePIgenomics ANNOtation tool.ePIANNO:表观基因组注释工具。
PLoS One. 2016 Feb 9;11(2):e0148321. doi: 10.1371/journal.pone.0148321. eCollection 2016.
6
Learning common and specific patterns from data of multiple interrelated biological scenarios with matrix factorization.利用矩阵分解从多个相互关联的生物学场景的数据中学习常见和特定模式。
Nucleic Acids Res. 2019 Jul 26;47(13):6606-6617. doi: 10.1093/nar/gkz488.
7
Linkage disequilibrium mapping for complex disease genes.复杂疾病基因的连锁不平衡定位
Methods Mol Biol. 2007;376:85-107. doi: 10.1007/978-1-59745-389-9_7.
8
RNASeqMetaDB: a database and web server for navigating metadata of publicly available mouse RNA-Seq datasets.RNASeqMetaDB:一个用于浏览公开可用小鼠RNA测序数据集元数据的数据库和网络服务器。
Bioinformatics. 2015 Dec 15;31(24):4038-40. doi: 10.1093/bioinformatics/btv503. Epub 2015 Aug 30.
9
Linkage disequilibrium and association mapping: an introduction.连锁不平衡与关联作图:引言
Methods Mol Biol. 2007;376:1-15. doi: 10.1007/978-1-59745-389-9_1.
10
SPAR: small RNA-seq portal for analysis of sequencing experiments.SPAR:用于分析测序实验的小型 RNA-seq 门户。
Nucleic Acids Res. 2018 Jul 2;46(W1):W36-W42. doi: 10.1093/nar/gky330.

引用本文的文献

1
Whole-miRNome sequencing: a panel for the targeted sequencing of all human miRNA genes.全miRNA组测序:一种用于对所有人类miRNA基因进行靶向测序的方法。
Nucleic Acids Res. 2025 Aug 27;53(16). doi: 10.1093/nar/gkaf812.
2
PISAD: reference-free intraspecies sample anomalies detection tool based on k-mer counting.PISAD:基于k-mer计数的无参考种内样本异常检测工具。
Gigascience. 2025 Jan 6;14. doi: 10.1093/gigascience/giaf061.
3
Genomic landscape of multiple myeloma and its precursor conditions.多发性骨髓瘤及其前驱疾病的基因组格局。

本文引用的文献

1
HYSYS: have you swapped your samples?HYSYS:你换过样本了吗?
Bioinformatics. 2017 Feb 15;33(4):596-598. doi: 10.1093/bioinformatics/btw685.
Nat Genet. 2025 May 21. doi: 10.1038/s41588-025-02196-0.
4
Transcriptome-wide association study of alternative polyadenylation identifies susceptibility genes in non-small cell lung cancer.全转录组范围的可变聚腺苷酸化关联研究确定了非小细胞肺癌中的易感基因。
Oncogene. 2025 Apr 9. doi: 10.1038/s41388-025-03338-8.
5
A multi-modal transformer for cell type-agnostic regulatory predictions.一种用于细胞类型无关调节预测的多模态变压器。
Cell Genom. 2025 Feb 12;5(2):100762. doi: 10.1016/j.xgen.2025.100762. Epub 2025 Jan 29.
6
Whole-genome sequencing study in Koreans identifies novel loci for Alzheimer's disease.韩国人的全基因组测序研究确定了阿尔茨海默病的新基因座。
Alzheimers Dement. 2024 Dec;20(12):8246-8262. doi: 10.1002/alz.14128. Epub 2024 Oct 20.
7
Screening a new set of microhaplotypes in exonic regions for sample identity testing and paternity testing during whole exome sequencing analysis.在全外显子组测序分析期间,筛选外显子区域中的一组新的微单倍型用于样本同一性检测和亲子鉴定。
Int J Legal Med. 2025 Jan;139(1):77-85. doi: 10.1007/s00414-024-03326-9. Epub 2024 Sep 26.
8
ntsm: an alignment-free, ultra-low-coverage, sequencing technology agnostic, intraspecies sample comparison tool for sample swap detection.ntsm:一种无需对齐、超低覆盖度、与测序技术无关的种内样本比较工具,用于检测样本交换。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giae024.
9
Development of a coding SNP panel for tracking the origin of whole-exome sequencing samples.用于追踪全外显子组测序样本来源的编码单核苷酸多态性(SNP)面板的开发。
BMC Genomics. 2024 Feb 5;25(1):142. doi: 10.1186/s12864-024-10052-4.
10
Human disease-specific cell signatures in non-lesional tissue in Multiple Sclerosis detected by single-cell and spatial transcriptomics.通过单细胞和空间转录组学检测到的多发性硬化症非病变组织中的人类疾病特异性细胞特征。
bioRxiv. 2023 Dec 20:2023.12.20.572491. doi: 10.1101/2023.12.20.572491.