构建用于临床测序数据整合与管理的癌症诊断文本到肿瘤树映射管道

Building Cancer Diagnosis Text to OncoTree Mapping Pipelines for Clinical Sequencing Data Integration and Curation.

作者信息

Narayanan Adhithya, Topaloglu Umit, Laurini Javier A, Diaz-Garelli Franck

机构信息

University of North Carolina at Chapel Hill, Chapel Hill, NC.

Wake Forest Baptist Medical Center, Winston Salem, NC.

出版信息

AMIA Jt Summits Transl Sci Proc. 2020 May 30;2020:440-448. eCollection 2020.

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7233083/

Abstract

Precision oncology research seeks to derive knowledge from existing data. Current work seeks to integrate clinical and genomic data across cancer centers to enable impactful secondary use. However, integrated data reliability depends on the data curation method used and its systematicity. In practice, data integration and mapping are often done manually even though crucial data such as oncological diagnoses (DX) show varying accuracy and specificity levels. We hypothesized that mapping of text-form cancer DX to a standardized terminology (OncoTree) could be automated using existing methods (e.g. natural language processing (NLP) modules and application programming interfaces [APIs]). We found that our best-performing pipeline prototype was effective but limited by API development limitations (accurately mapped 96.2% of textual DX dataset to NCI Thesaurus (NCIt), 44.2% through NCIt to OncoTree). These results suggest the pipeline model could be viable to automate data curation. Such techniques may become increasingly more reliable with further development.

摘要

精准肿瘤学研究旨在从现有数据中获取知识。当前的工作致力于整合各癌症中心的临床和基因组数据，以实现有影响力的二次利用。然而，整合数据的可靠性取决于所使用的数据管理方法及其系统性。在实践中，即使诸如肿瘤诊断（DX）等关键数据的准确性和特异性水平各不相同，数据整合和映射通常仍由人工完成。我们假设可以使用现有方法（如自然语言处理（NLP）模块和应用程序编程接口 [API]）将文本形式的癌症DX映射到标准化术语（肿瘤树状图）。我们发现，我们性能最佳的管道原型是有效的，但受到API开发限制（将96.2%的文本DX数据集准确映射到美国国立癌症研究所叙词表（NCIt），通过NCIt映射到肿瘤树状图的比例为44.2%）。这些结果表明该管道模型对于自动化数据管理可能是可行的。随着进一步发展，此类技术可能会变得越来越可靠。

相似文献

1

Building Cancer Diagnosis Text to OncoTree Mapping Pipelines for Clinical Sequencing Data Integration and Curation.构建用于临床测序数据整合与管理的癌症诊断文本到肿瘤树映射管道

AMIA Jt Summits Transl Sci Proc. 2020 May 30;2020:440-448. eCollection 2020.

2

OncoTree: A Cancer Classification System for Precision Oncology.OncoTree：精准肿瘤学的癌症分类系统。

JCO Clin Cancer Inform. 2021 Feb;5:221-230. doi: 10.1200/CCI.20.00108.

3

Designing an openEHR-Based Pipeline for Extracting and Standardizing Unstructured Clinical Data Using Natural Language Processing.设计一个基于 openEHR 的管道，使用自然语言处理提取和标准化非结构化临床数据。

Methods Inf Med. 2020 Dec;59(S 02):e64-e78. doi: 10.1055/s-0040-1716403. Epub 2020 Oct 14.

4

Mapping of ICD-O Tuples to OncoTree Codes Using SNOMED CT Post-Coordination.利用 SNOMED CT 后协调将 ICD-O 元组映射到 OncoTree 代码。

Stud Health Technol Inform. 2022 May 25;294:307-311. doi: 10.3233/SHTI220464.

5

Building a model for disease classification integration in oncology, an approach based on the national cancer institute thesaurus.构建肿瘤学中疾病分类整合模型：一种基于美国国立癌症研究所叙词表的方法。

J Biomed Semantics. 2017 Feb 7;8(1):6. doi: 10.1186/s13326-017-0114-4.

6

Web-based interactive mapping from data dictionaries to ontologies, with an application to cancer registry.基于网络的从数据字典到本体的交互式映射，应用于癌症登记。

BMC Med Inform Decis Mak. 2020 Dec 15;20(Suppl 10):271. doi: 10.1186/s12911-020-01288-7.

7

Semi-Automated Data Curation from Biomedical Literature.生物医学文献的半自动数据编纂。

AMIA Annu Symp Proc. 2023 Apr 29;2022:884-891. eCollection 2022.

8

The Real-World Experiences of Persons With Multiple Sclerosis During the First COVID-19 Lockdown: Application of Natural Language Processing.多发性硬化症患者在首次新冠疫情封锁期间的真实世界经历：自然语言处理的应用

JMIR Med Inform. 2022 Nov 10;10(11):e37945. doi: 10.2196/37945.

9

Programming techniques for improving rule readability for rule-based information extraction natural language processing pipelines of unstructured and semi-structured medical texts.用于改进基于规则的信息抽取自然语言处理管道的规则可读性的编程技术，这些管道处理非结构化和半结构化的医学文本。

Health Informatics J. 2023 Apr-Jun;29(2):14604582231164696. doi: 10.1177/14604582231164696.

10

API2CAN: a dataset & service for canonical utterance generation for REST APIs.API2CAN：用于生成 REST API 规范语句的数据集和服务。

BMC Res Notes. 2021 Sep 22;14(1):368. doi: 10.1186/s13104-021-05593-w.

引用本文的文献

1

Assessment of Electronic Health Record for Cancer Research and Patient Care Through a Scoping Review of Cancer Natural Language Processing.通过癌症自然语言处理的范围综述评估癌症研究和患者护理的电子健康记录。

JCO Clin Cancer Inform. 2022 Jul;6:e2200006. doi: 10.1200/CCI.22.00006.

本文引用的文献

1

A Pattern-Based Method for Medical Entity Recognition From Chinese Diagnostic Imaging Text.一种基于模式的从中文诊断影像文本中识别医学实体的方法。

Front Artif Intell. 2019 May 14;2:1. doi: 10.3389/frai.2019.00001. eCollection 2019.

2

A tale of three subspecialties: Diagnosis recording patterns are internally consistent but Specialty-Dependent.三个亚专业的故事：诊断记录模式在内部是一致的，但因专业而异。

JAMIA Open. 2019 Aug 5;2(3):369-377. doi: 10.1093/jamiaopen/ooz020. eCollection 2019 Oct.

3

DataGauge: A Practical Process for Systematically Designing and Implementing Quality Assessments of Repurposed Clinical Data.数据评估：一种系统设计和实施重新利用临床数据质量评估的实用流程。

EGEMS (Wash DC). 2019 Jul 25;7(1):32. doi: 10.5334/egems.286.

4

Lost in Translation: Diagnosis Records Show More Inaccuracies After Biopsy in Oncology Care EHRs.翻译失误：诊断记录显示肿瘤护理电子健康记录活检后存在更多不准确之处。

AMIA Jt Summits Transl Sci Proc. 2019 May 6;2019:325-334. eCollection 2019.

5

A Frame-Based NLP System for Cancer-Related Information Extraction.一种用于癌症相关信息提取的基于框架的自然语言处理系统。

AMIA Annu Symp Proc. 2018 Dec 5;2018:1524-1533. eCollection 2018.

6

Biopsy Records Do Not Reduce Diagnosis Variability in Cancer Patient EHRs: Are We More Uncertain After Knowing?活检记录并未降低癌症患者电子健康记录中的诊断变异性：知晓后我们是否更加不确定？

AMIA Jt Summits Transl Sci Proc. 2018 May 18;2017:72-80. eCollection 2018.

7

System for Informatics in the Molecular Pathology Laboratory: An Open-Source End-to-End Solution for Next-Generation Sequencing Clinical Data Management.分子病理学实验室信息系统：下一代测序临床数据管理的开源端到端解决方案。

J Mol Diagn. 2018 Jul;20(4):522-532. doi: 10.1016/j.jmoldx.2018.03.008. Epub 2018 Apr 24.

8

Repeat: a framework to assess empirical reproducibility in biomedical research.重复：评估生物医学研究中经验再现性的框架。

BMC Med Res Methodol. 2017 Sep 18;17(1):143. doi: 10.1186/s12874-017-0377-6.

9

AACR Project GENIE: Powering Precision Medicine through an International Consortium.美国癌症研究协会（AACR）项目GENIE：通过国际联盟推动精准医学发展。

Cancer Discov. 2017 Aug;7(8):818-831. doi: 10.1158/2159-8290.CD-17-0151. Epub 2017 Jun 1.

10

Perspectives on making big data analytics work for oncology.关于使大数据分析在肿瘤学中发挥作用的观点。

Methods. 2016 Dec 1;111:32-44. doi: 10.1016/j.ymeth.2016.08.010. Epub 2016 Aug 29.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验