• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用词嵌入和医学实体提取,通过非结构化文本检索生物医学数据集。

Leveraging word embeddings and medical entity extraction for biomedical dataset retrieval using unstructured texts.

作者信息

Wang Yanshan, Rastegar-Mojarad Majid, Komandur-Elayavilli Ravikumar, Liu Hongfang

机构信息

Department of Health Sciences Research, Mayo Clinic, Rochester, MN 55901, USA.

出版信息

Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax091.

DOI:10.1093/database/bax091
PMID:31725862
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7243926/
Abstract

The recent movement towards open data in the biomedical domain has generated a large number of datasets that are publicly accessible. The Big Data to Knowledge data indexing project, biomedical and healthCAre Data Discovery Index Ecosystem (bioCADDIE), has gathered these datasets in a one-stop portal aiming at facilitating their reuse for accelerating scientific advances. However, as the number of biomedical datasets stored and indexed increases, it becomes more and more challenging to retrieve the relevant datasets according to researchers' queries. In this article, we propose an information retrieval (IR) system to tackle this problem and implement it for the bioCADDIE Dataset Retrieval Challenge. The system leverages the unstructured texts of each dataset including the title and description for the dataset, and utilizes a state-of-the-art IR model, medical named entity extraction techniques, query expansion with deep learning-based word embeddings and a re-ranking strategy to enhance the retrieval performance. In empirical experiments, we compared the proposed system with 11 baseline systems using the bioCADDIE Dataset Retrieval Challenge datasets. The experimental results show that the proposed system outperforms other systems in terms of inference Average Precision and inference normalized Discounted Cumulative Gain, implying that the proposed system is a viable option for biomedical dataset retrieval. Database URL: https://github.com/yanshanwang/biocaddie2016mayodata.

摘要

生物医学领域最近朝着开放数据的方向发展,产生了大量可公开访问的数据集。“大数据到知识”数据索引项目,即生物医学与医疗保健数据发现索引生态系统(bioCADDIE),已将这些数据集收集到一个一站式门户中,旨在促进它们的再利用以加速科学进步。然而,随着存储和索引的生物医学数据集数量的增加,根据研究人员的查询检索相关数据集变得越来越具有挑战性。在本文中,我们提出了一种信息检索(IR)系统来解决这个问题,并针对bioCADDIE数据集检索挑战赛实现了该系统。该系统利用每个数据集的非结构化文本,包括数据集的标题和描述,并采用了先进的IR模型、医学命名实体提取技术、基于深度学习词嵌入的查询扩展以及重新排序策略来提高检索性能。在实证实验中,我们使用bioCADDIE数据集检索挑战赛数据集将所提出的系统与11个基线系统进行了比较。实验结果表明,所提出的系统在推理平均精度和推理归一化折损累计增益方面优于其他系统,这意味着所提出的系统是生物医学数据集检索的一个可行选择。数据库网址:https://github.com/yanshanwang/biocaddie2016mayodata 。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/320c86d0cbc2/bax091f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/ab57685b4ba0/bax091f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/8d5e79b87947/bax091f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/08c12f8b4dcb/bax091f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/320c86d0cbc2/bax091f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/ab57685b4ba0/bax091f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/8d5e79b87947/bax091f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/08c12f8b4dcb/bax091f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/77fc/7243926/320c86d0cbc2/bax091f4.jpg

相似文献

1
Leveraging word embeddings and medical entity extraction for biomedical dataset retrieval using unstructured texts.利用词嵌入和医学实体提取,通过非结构化文本检索生物医学数据集。
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax091.
2
Probabilistic and machine learning-based retrieval approaches for biomedical dataset retrieval.基于概率和机器学习的生物医学数据集检索方法。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bax104.
3
A comparison of word embeddings for the biomedical natural language processing.生物医学自然语言处理中词嵌入的比较。
J Biomed Inform. 2018 Nov;87:12-20. doi: 10.1016/j.jbi.2018.09.008. Epub 2018 Sep 12.
4
Multi-field query expansion is effective for biomedical dataset retrieval.多字段查询扩展对生物医学数据集检索有效。
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax062.
5
A content-based dataset recommendation system for researchers-a case study on Gene Expression Omnibus (GEO) repository.基于内容的数据集推荐系统,供研究人员使用——以基因表达综合数据库 (GEO) 为例
Database (Oxford). 2020 Jan 1;2020:1. doi: 10.1093/database/baaa064.
6
Bayesian approach to incorporating different types of biomedical knowledge bases into information retrieval systems for clinical decision support in precision medicine.贝叶斯方法在将不同类型的生物医学知识库整合到精准医学临床决策支持信息检索系统中的应用。
J Biomed Inform. 2019 Oct;98:103238. doi: 10.1016/j.jbi.2019.103238. Epub 2019 Jul 10.
7
Analyzing transfer learning impact in biomedical cross-lingual named entity recognition and normalization.分析迁移学习在生物医学跨语言命名实体识别和标准化中的影响。
BMC Bioinformatics. 2021 Dec 17;22(Suppl 1):601. doi: 10.1186/s12859-021-04247-9.
8
Incorporating entity-level knowledge in pretrained language model for biomedical dense retrieval.将实体级知识纳入预训练语言模型以实现生物医学密集检索。
Comput Biol Med. 2023 Nov;166:107535. doi: 10.1016/j.compbiomed.2023.107535. Epub 2023 Sep 28.
9
Improving biomedical information retrieval by linear combinations of different query expansion techniques.通过不同查询扩展技术的线性组合改进生物医学信息检索。
BMC Bioinformatics. 2016 Jul 25;17 Suppl 7(Suppl 7):238. doi: 10.1186/s12859-016-1092-8.
10
DataMed - an open source discovery index for finding biomedical datasets.DataMed——一个用于查找生物医学数据集的开源发现索引。
J Am Med Inform Assoc. 2018 Mar 1;25(3):300-308. doi: 10.1093/jamia/ocx121.

引用本文的文献

1
A model of integrating convolution and BiGRU dual-channel mechanism for Chinese medical text classifications.基于卷积和 BiGRU 双通道机制融合的中文医学文本分类模型。
PLoS One. 2023 Mar 16;18(3):e0282824. doi: 10.1371/journal.pone.0282824. eCollection 2023.
2
Addressing barriers in FAIR data practices for biomedical data.解决生物医学数据的公平数据实践中的障碍。
Sci Data. 2023 Feb 23;10(1):98. doi: 10.1038/s41597-023-01969-8.
3
Developing a standardized but extendable framework to increase the findability of infectious disease datasets.

本文引用的文献

1
Multi-field query expansion is effective for biomedical dataset retrieval.多字段查询扩展对生物医学数据集检索有效。
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax062.
2
Elsevier's approach to the bioCADDIE 2016 Dataset Retrieval Challenge.爱思唯尔应对生物CADDIE 2016数据集检索挑战赛的方法。
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax056.
3
A publicly available benchmark for biomedical dataset retrieval: the reference standard for the 2016 bioCADDIE dataset retrieval challenge.生物医学数据集检索的公开基准:2016 年生物 CADDIE 数据集检索挑战赛的参考标准。
开发一个标准化但可扩展的框架,以提高传染病数据集的可发现性。
Sci Data. 2023 Feb 23;10(1):99. doi: 10.1038/s41597-023-01968-9.
4
A semantic relationship mining method among disorders, genes, and drugs from different biomedical datasets.一种从不同生物医学数据集挖掘疾病、基因和药物之间语义关系的方法。
BMC Med Inform Decis Mak. 2020 Dec 14;20(Suppl 4):283. doi: 10.1186/s12911-020-01274-z.
5
A supervised term ranking model for diversity enhanced biomedical information retrieval.一种用于增强生物医学信息检索多样性的有监督术语排序模型。
BMC Bioinformatics. 2019 Dec 2;20(Suppl 16):590. doi: 10.1186/s12859-019-3080-2.
6
A clinical text classification paradigm using weak supervision and deep representation.一种使用弱监督和深度表示的临床文本分类范式。
BMC Med Inform Decis Mak. 2019 Jan 7;19(1):1. doi: 10.1186/s12911-018-0723-6.
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax061.
4
Finding useful data across multiple biomedical data repositories using DataMed.利用 DataMed 在多个生物医学数据存储库中查找有用数据。
Nat Genet. 2017 May 26;49(6):816-819. doi: 10.1038/ng.3864.
5
BELMiner: adapting a rule-based relation extraction system to extract biological expression language statements from bio-medical literature evidence sentences.BELMiner:调整基于规则的关系提取系统,以从生物医学文献证据句子中提取生物表达语言陈述。
Database (Oxford). 2017 Jan 1;2017(1). doi: 10.1093/database/baw156.
6
The Unified Medical Language System.统一医学语言系统
Yearb Med Inform. 1993(1):41-51. doi: 10.1055/s-0038-1637976.
7
A Part-Of-Speech term weighting scheme for biomedical information retrieval.一种用于生物医学信息检索的词性术语加权方案。
J Biomed Inform. 2016 Oct;63:379-389. doi: 10.1016/j.jbi.2016.08.026. Epub 2016 Sep 1.
8
The FAIR Guiding Principles for scientific data management and stewardship.科学数据管理和保存的 FAIR 指导原则。
Sci Data. 2016 Mar 15;3:160018. doi: 10.1038/sdata.2016.18.
9
The NIH Big Data to Knowledge (BD2K) initiative.美国国立卫生研究院大数据到知识(BD2K)计划。
J Am Med Inform Assoc. 2015 Nov;22(6):1114. doi: 10.1093/jamia/ocv136.
10
Policy: NIH plans to enhance reproducibility.政策:NIH 计划提高可重复性。
Nature. 2014 Jan 30;505(7485):612-3. doi: 10.1038/505612a.