• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

GRASCCO-首个公开可分享的、多语料异体的德国临床文本语料库。

GRASCCO - The First Publicly Shareable, Multiply-Alienated German Clinical Text Corpus.

机构信息

JULIE Lab, Friedrich Schiller University Jena, Germany.

Intelligence and Informatics in Medicine, Medical Center rechts der Isar, Technical University Munich, Germany.

出版信息

Stud Health Technol Inform. 2022 Aug 17;296:66-72. doi: 10.3233/SHTI220805.

DOI:10.3233/SHTI220805
PMID:36073490
Abstract

We describe the creation of GRASCCO, a novel German-language corpus composed of some 60 clinical documents with more than.43,000 tokens. GRASCCO is a synthetic corpus resulting from a series of alienation steps to obfuscate privacy-sensitive information contained in real clinical documents, the true origin of all GRASCCO texts. Therefore, it is publicly shareable without any legal restrictions We also explore whether this corpus still represents common clinical language use by comparison with a real (non-shareable) clinical corpus we developed as a contribution to the Medical Informatics Initiative in Germany (MII) within the SMITH consortium. We find evidence that such a claim can indeed be made.

摘要

我们描述了 GRASCCO 的创建过程,这是一个新的德语语料库,由大约 60 份临床文件组成,超过 43000 个标记。GRASCCO 是一个合成语料库,由一系列使包含在真实临床文件中的隐私敏感信息变得混乱的异化步骤产生,所有 GRASCCO 文本的真实来源。因此,它可以在没有任何法律限制的情况下公开共享。我们还通过与我们作为 SMITH 联盟中德国医学信息学倡议 (MII) 的一部分开发的真实(不可共享)临床语料库进行比较,来探索这个语料库是否仍然代表常见的临床语言使用。我们发现有证据表明确实可以这样声称。

相似文献

1
GRASCCO - The First Publicly Shareable, Multiply-Alienated German Clinical Text Corpus.GRASCCO-首个公开可分享的、多语料异体的德国临床文本语料库。
Stud Health Technol Inform. 2022 Aug 17;296:66-72. doi: 10.3233/SHTI220805.
2
Final Report on the German Clinical Reference Corpus 3000PA.德国临床参考语料库 3000PA 最终报告
Stud Health Technol Inform. 2024 Jan 25;310:599-603. doi: 10.3233/SHTI231035.
3
De-Identifying GRASCCO - A Pilot Study for the De-Identification of the German Medical Text Project (GeMTeX) Corpus.去标识化 GRASCCO - 德国医疗文本项目(GeMTeX)语料库去标识化的初步研究。
Stud Health Technol Inform. 2024 Aug 30;317:171-179. doi: 10.3233/SHTI240853.
4
Announcement of the German Medical Text Corpus Project (GeMTeX).德国医学文本语料库项目(GeMTeX)公告。
Stud Health Technol Inform. 2023 May 18;302:835-836. doi: 10.3233/SHTI230283.
5
Sharing models and tools for processing German clinical texts.用于处理德语临床文本的共享模型和工具。
Stud Health Technol Inform. 2015;210:734-8.
6
Synthetic data for annotation and extraction of family history information from clinical text.用于从临床文本中注释和提取家族史信息的合成数据。
J Biomed Semantics. 2021 Jul 14;12(1):11. doi: 10.1186/s13326-021-00244-2.
7
Building a comprehensive syntactic and semantic corpus of Chinese clinical texts.构建中文临床文本的综合句法和语义语料库。
J Biomed Inform. 2017 May;69:203-217. doi: 10.1016/j.jbi.2017.04.006. Epub 2017 Apr 9.
8
[The analysis of CIRSmedical.de using Natural Language Processing].[使用自然语言处理对CIRSmedical.de进行分析]
Z Evid Fortbild Qual Gesundhwes. 2022 Apr;169:1-11. doi: 10.1016/j.zefq.2021.12.002. Epub 2022 Feb 17.
9
3000PA-Towards a National Reference Corpus of German Clinical Language.3000PA——迈向德语临床语言国家参考语料库
Stud Health Technol Inform. 2018;247:26-30.
10
Building a text corpus for representing the variety of medical language.构建一个用于呈现医学语言多样性的文本语料库。
Stud Health Technol Inform. 2001;84(Pt 1):290-4.

引用本文的文献

1
Can open source large language models be used for tumor documentation in Germany?-An evaluation on urological doctors' notes.在德国,开源大语言模型可用于肿瘤记录吗?——对泌尿科医生笔记的评估
BioData Min. 2025 Jul 24;18(1):48. doi: 10.1186/s13040-025-00463-8.
2
Clinical document corpora-real ones, translated and synthetic substitutes, and assorted domain proxies: a survey of diversity in corpus design, with focus on German text data.临床文档语料库——真实语料库、翻译语料库和合成替代语料库,以及各类领域替代语料库:语料库设计多样性调查,重点关注德语文本数据
JAMIA Open. 2025 May 14;8(3):ooaf024. doi: 10.1093/jamiaopen/ooaf024. eCollection 2025 Jun.
3
A Transformer-Based Pipeline for German Clinical Document De-Identification.
一种基于Transformer的德国临床文档去识别管道。
Appl Clin Inform. 2025 Jan;16(1):31-43. doi: 10.1055/a-2424-1989. Epub 2025 Jan 8.
4
Exploring the Latest Highlights in Medical Natural Language Processing across Multiple Languages: A Survey.探索多语言医学自然语言处理的最新亮点:综述。
Yearb Med Inform. 2023 Aug;32(1):230-243. doi: 10.1055/s-0043-1768726. Epub 2023 Dec 26.
5
A distributable German clinical corpus containing cardiovascular clinical routine doctor's letters.包含心血管临床常规医生信件的可分发德国临床语料库。
Sci Data. 2023 Apr 14;10(1):207. doi: 10.1038/s41597-023-02128-9.