• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种使用维基百科知识进行生物医学文档分类的概念包方法*。西班牙语-英语跨语言案例研究。

A Bag of Concepts Approach for Biomedical Document Classification Using Wikipedia Knowledge*. Spanish-English Cross-language Case Study.

作者信息

Mouriño-García Marcos A, Pérez-Rodríguez Roberto, Anido-Rifón Luis E

机构信息

Department of Telematics Engineering, University of Vigo, Vigo, Spain

出版信息

Methods Inf Med. 2017 Oct 26;56(5):370-376. doi: 10.3414/ME17-01-0028. Epub 2017 Aug 16.

DOI:10.3414/ME17-01-0028
PMID:28816337
Abstract

OBJECTIVES

The ability to efficiently review the existing literature is essential for the rapid progress of research. This paper describes a classifier of text documents, represented as vectors in spaces of Wikipedia concepts, and analyses its suitability for classification of Spanish biomedical documents when only English documents are available for training. We propose the cross-language concept matching (CLCM) technique, which relies on Wikipedia interlanguage links to convert concept vectors from the Spanish to the English space.

METHODS

The performance of the classifier is compared to several baselines: a classifier based on machine translation, a classifier that represents documents after performing Explicit Semantic Analysis (ESA), and a classifier that uses a domain-specific semantic annotator (MetaMap). The corpus used for the experiments (Cross-Language UVigoMED) was purpose-built for this study, and it is composed of 12,832 English and 2,184 Spanish MEDLINE abstracts.

RESULTS

The performance of our approach is superior to any other state-of-the art classifier in the benchmark, with performance increases up to: 124% over classical machine translation, 332% over MetaMap, and 60 times over the classifier based on ESA. The results have statistical significance, showing p-values < 0.0001.

CONCLUSION

Using knowledge mined from Wikipedia to represent documents as vectors in a space of Wikipedia concepts and translating vectors between language-specific concept spaces, a cross-language classifier can be built, and it performs better than several state-of-the-art classifiers.

摘要

目标

高效回顾现有文献的能力对于研究的快速进展至关重要。本文描述了一种文本分类器,其将文本文档表示为维基百科概念空间中的向量,并分析了在仅有英文文档可用于训练时,该分类器对西班牙生物医学文档分类的适用性。我们提出了跨语言概念匹配(CLCM)技术,该技术依赖维基百科的跨语言链接将概念向量从西班牙语空间转换到英语空间。

方法

将该分类器的性能与几个基线进行比较:基于机器翻译的分类器、在执行显式语义分析(ESA)后表示文档的分类器以及使用特定领域语义注释器(MetaMap)的分类器。用于实验的语料库(跨语言维戈医学语料库)是专门为此研究构建的,它由12,832篇英文和2,184篇西班牙文的医学文献摘要组成。

结果

我们方法的性能优于基准中的任何其他现有分类器,性能提升高达:比经典机器翻译高124%,比MetaMap高332%,比基于ESA的分类器高60倍。结果具有统计学意义,p值<0.0001。

结论

利用从维基百科挖掘的知识将文档表示为维基百科概念空间中的向量,并在特定语言的概念空间之间转换向量,可以构建一个跨语言分类器,其性能优于几个现有分类器。

相似文献

1
A Bag of Concepts Approach for Biomedical Document Classification Using Wikipedia Knowledge*. Spanish-English Cross-language Case Study.一种使用维基百科知识进行生物医学文档分类的概念包方法*。西班牙语-英语跨语言案例研究。
Methods Inf Med. 2017 Oct 26;56(5):370-376. doi: 10.3414/ME17-01-0028. Epub 2017 Aug 16.
2
Leveraging Wikipedia knowledge to classify multilingual biomedical documents.利用维基百科知识对多语言生物医学文献进行分类。
Artif Intell Med. 2018 Jun;88:37-57. doi: 10.1016/j.artmed.2018.04.007. Epub 2018 May 3.
3
Biomedical literature classification using encyclopedic knowledge: a Wikipedia-based bag-of-concepts approach.利用百科知识进行生物医学文献分类:一种基于维基百科的概念袋方法。
PeerJ. 2015 Sep 29;3:e1279. doi: 10.7717/peerj.1279. eCollection 2015.
4
Large scale biomedical texts classification: a kNN and an ESA-based approaches.大规模生物医学文本分类:基于k近邻算法和基于词嵌入语义分析的方法。
J Biomed Semantics. 2016 Jun 16;7:40. doi: 10.1186/s13326-016-0073-1.
5
tESA: a distributional measure for calculating semantic relatedness.tESA:一种用于计算语义相关性的分布度量。
J Biomed Semantics. 2016 Dec 28;7(1):67. doi: 10.1186/s13326-016-0109-6.
6
Cross-lingual semantic annotation of biomedical literature: experiments in Spanish and English.生物医学文献的跨语言语义标注:西班牙语和英语的实验。
Bioinformatics. 2020 Mar 1;36(6):1872-1880. doi: 10.1093/bioinformatics/btz853.
7
Deep Multilabel Multilingual Document Learning for Cross-Lingual Document Retrieval.用于跨语言文档检索的深度多标签多语言文档学习
Entropy (Basel). 2022 Jul 7;24(7):943. doi: 10.3390/e24070943.
8
An ensemble heterogeneous classification methodology for discovering health-related knowledge in social media messages.一种用于在社交媒体消息中发现健康相关知识的集成异构分类方法。
J Biomed Inform. 2014 Jun;49:255-68. doi: 10.1016/j.jbi.2014.03.005. Epub 2014 Mar 16.
9
Knowledge based word-concept model estimation and refinement for biomedical text mining.用于生物医学文本挖掘的基于知识的词概念模型估计与优化。
J Biomed Inform. 2015 Feb;53:300-7. doi: 10.1016/j.jbi.2014.11.015. Epub 2014 Dec 12.
10
MorphoSaurus--design and evaluation of an interlingua-based, cross-language document retrieval engine for the medical domain.形态恐龙——一种基于中间语言的医学领域跨语言文档检索引擎的设计与评估。
Methods Inf Med. 2005;44(4):537-45.