• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

优化数据提取:利用 RAG 和大型语言模型处理德语文献

Optimizing Data Extraction: Harnessing RAG and LLMs for German Medical Documents.

机构信息

Department of Pediatrics, Dr. von Hauner Children's Hospital, University Hospital, LMU Munich, Munich, Germany.

Medical Technology and IT (MIT), University Hospital, LMU Munich, Munich, Germany.

出版信息

Stud Health Technol Inform. 2024 Aug 22;316:949-950. doi: 10.3233/SHTI240567.

DOI:10.3233/SHTI240567
PMID:39176948
Abstract

In the field of medical data analysis, converting unstructured text documents into a structured format suitable for further use is a significant challenge. This study introduces an automated local deployed data privacy secure pipeline that uses open-source Large Language Models (LLMs) with Retrieval-Augmented Generation (RAG) architecture to convert medical German language documents with sensitive health-related information into a structured format. Testing on a proprietary dataset of 800 unstructured original medical reports demonstrated an accuracy of up to 90% in data extraction of the pipeline compared to data extracted manually by physicians and medical students. This highlights the pipeline's potential as a valuable tool for efficiently extracting relevant data from unstructured sources.

摘要

在医学数据分析领域,将非结构化的文本文件转换为适合进一步使用的结构化格式是一项重大挑战。本研究引入了一种自动化的本地部署数据隐私安全管道,该管道使用带有检索增强生成(RAG)架构的开源大型语言模型(LLM),将带有敏感健康相关信息的德语医学文件转换为结构化格式。在一个包含 800 份非结构化原始医学报告的专有数据集上进行的测试表明,与医生和医学生手动提取的数据相比,该管道在数据提取方面的准确率高达 90%。这突出了该管道作为一种从非结构化来源高效提取相关数据的有价值工具的潜力。

相似文献

1
Optimizing Data Extraction: Harnessing RAG and LLMs for German Medical Documents.优化数据提取:利用 RAG 和大型语言模型处理德语文献
Stud Health Technol Inform. 2024 Aug 22;316:949-950. doi: 10.3233/SHTI240567.
2
An Entity Extraction Pipeline for Medical Text Records Using Large Language Models: Analytical Study.基于大型语言模型的医疗文本记录实体抽取流水线:分析研究。
J Med Internet Res. 2024 Mar 29;26:e54580. doi: 10.2196/54580.
3
Extraction of UMLS® Concepts Using Apache cTAKES™ for German Language.使用Apache cTAKES™从德语中提取统一医学语言系统(UMLS®)概念。
Stud Health Technol Inform. 2016;223:71-6.
4
Development of an information retrieval tool for biomedical patents.生物医学专利信息检索工具的开发。
Comput Methods Programs Biomed. 2018 Jun;159:125-134. doi: 10.1016/j.cmpb.2018.03.012. Epub 2018 Mar 14.
5
Information extraction from medical case reports using OpenAI InstructGPT.使用 OpenAI InstructGPT 从医学病例报告中提取信息。
Comput Methods Programs Biomed. 2024 Oct;255:108326. doi: 10.1016/j.cmpb.2024.108326. Epub 2024 Jul 18.
6
Facilitating clinical research through automation: Combining optical character recognition with natural language processing.通过自动化促进临床研究:结合光学字符识别和自然语言处理。
Clin Trials. 2022 Oct;19(5):504-511. doi: 10.1177/17407745221093621. Epub 2022 May 24.
7
Designing an openEHR-Based Pipeline for Extracting and Standardizing Unstructured Clinical Data Using Natural Language Processing.设计一个基于 openEHR 的管道,使用自然语言处理提取和标准化非结构化临床数据。
Methods Inf Med. 2020 Dec;59(S 02):e64-e78. doi: 10.1055/s-0040-1716403. Epub 2020 Oct 14.
8
Information extraction from multi-institutional radiology reports.从多机构放射学报告中提取信息。
Artif Intell Med. 2016 Jan;66:29-39. doi: 10.1016/j.artmed.2015.09.007. Epub 2015 Oct 3.
9
LLM-AIx: An open source pipeline for Information Extraction from unstructured medical text based on privacy preserving Large Language Models.LLM-AIx:一种基于隐私保护大语言模型从非结构化医学文本中提取信息的开源管道。
medRxiv. 2024 Sep 3:2024.09.02.24312917. doi: 10.1101/2024.09.02.24312917.
10
SEMCARE: Multilingual Semantic Search in Semi-Structured Clinical Data.SEMCARE:半结构化临床数据中的多语言语义搜索
Stud Health Technol Inform. 2016;223:93-9.

引用本文的文献

1
A Pipeline for Automating Emergency Medicine Documentation Using LLMs with Retrieval-Augmented Text Generation.一种使用带有检索增强文本生成功能的大语言模型来自动化急诊医学文档记录的流程。
Appl Artif Intell. 2025 Jun 18;39(1):2519169. doi: 10.1080/08839514.2025.2519169. eCollection 2025.
2
[Potential applications of large language models in trauma surgery : Opportunities, risks and perspectives].[大语言模型在创伤外科中的潜在应用:机遇、风险与展望]
Unfallchirurgie (Heidelb). 2025 May 12. doi: 10.1007/s00113-025-01581-y.