Suppr超能文献

使用改进的 N-gram 比较 Medline 引文。

Comparing Medline citations using modified N-grams.

机构信息

Department of Computer Science, COMSATS Institute of Information Technology, Lahore, Pakistan.

出版信息

J Am Med Inform Assoc. 2014 Jan-Feb;21(1):105-10. doi: 10.1136/amiajnl-2012-001552. Epub 2013 May 28.

Abstract

OBJECTIVE

We aim to identify duplicate pairs of Medline citations, particularly when the documents are not identical but contain similar information.

MATERIALS AND METHODS

Duplicate pairs of citations are identified by comparing word n-grams in pairs of documents. N-grams are modified using two approaches which take account of the fact that the document may have been altered. These are: (1) deletion, an item in the n-gram is removed; and (2) substitution, an item in the n-gram is substituted with a similar term obtained from the Unified Medical Language System Metathesaurus. N-grams are also weighted using a score derived from a language model. Evaluation is carried out using a set of 520 Medline citation pairs, including a set of 260 manually verified duplicate pairs obtained from the Deja Vu database.

RESULTS

The approach accurately detects duplicate Medline document pairs with an F1 measure score of 0.99. Allowing for word deletions and substitution improves performance. The best results are obtained by combining scores for n-grams of length 1-5 words.

DISCUSSION

Results show that the detection of duplicate Medline citations can be improved by modifying n-grams and that high performance can also be obtained using only unigrams (F1=0.959), particularly when allowing for substitutions of alternative phrases.

摘要

目的

我们旨在识别 Medline 引文的重复对,特别是当文献不完全相同时,但包含相似的信息。

材料与方法

通过比较文献对中的单词 n 元组来识别重复对。n 元组通过两种方法进行修改,这些方法考虑到文档可能已被修改的事实。这些方法是:(1)删除,从 n 元组中删除一个项目;(2)替换,用来自统一医学语言系统术语表的相似术语替换 n 元组中的一个项目。n 元组也使用源自语言模型的分数进行加权。使用包含 520 对 Medline 引文的数据集进行评估,其中包括从 Deja Vu 数据库获得的一组 260 对经过手动验证的重复对。

结果

该方法以 0.99 的 F1 度量分数准确地检测出重复的 Medline 文献对。允许单词删除和替换可以提高性能。通过组合长度为 1-5 个单词的 n 元组的分数,可以获得最佳结果。

讨论

结果表明,通过修改 n 元组可以提高对重复 Medline 引文的检测,并且仅使用单词语义(F1=0.959)也可以获得高性能,特别是在允许替代短语替换时。

相似文献

1
Comparing Medline citations using modified N-grams.使用改进的 N-gram 比较 Medline 引文。
J Am Med Inform Assoc. 2014 Jan-Feb;21(1):105-10. doi: 10.1136/amiajnl-2012-001552. Epub 2013 May 28.
3
Deja vu: a database of highly similar citations in the scientific literature.似曾相识:科学文献中高度相似引用的数据库。
Nucleic Acids Res. 2009 Jan;37(Database issue):D921-4. doi: 10.1093/nar/gkn546. Epub 2008 Aug 30.
4
Identifying duplicate content using statistically improbable phrases.使用统计上不太可能出现的短语来识别重复内容。
Bioinformatics. 2010 Jun 1;26(11):1453-7. doi: 10.1093/bioinformatics/btq146. Epub 2010 May 13.
7
Duplicate publication in radiology journals.放射学期刊的重复发表。
AJR Am J Roentgenol. 2015 May;204(5):W573-8. doi: 10.2214/AJR.14.13461.
8
Exploiting domain information for Word Sense Disambiguation of medical documents.利用领域信息进行医学文献的词义消歧。
J Am Med Inform Assoc. 2012 Mar-Apr;19(2):235-40. doi: 10.1136/amiajnl-2011-000415. Epub 2011 Sep 7.
9
Link-topic model for biomedical abbreviation disambiguation.用于生物医学缩写词消歧的链接主题模型
J Biomed Inform. 2015 Feb;53:367-80. doi: 10.1016/j.jbi.2014.12.013. Epub 2014 Dec 30.
10
Determining the difficulty of Word Sense Disambiguation.确定词义消歧的难度。
J Biomed Inform. 2014 Feb;47:83-90. doi: 10.1016/j.jbi.2013.09.009. Epub 2013 Sep 26.

本文引用的文献

1
Identifying duplicate content using statistically improbable phrases.使用统计上不太可能出现的短语来识别重复内容。
Bioinformatics. 2010 Jun 1;26(11):1453-7. doi: 10.1093/bioinformatics/btq146. Epub 2010 May 13.
2
An overview of MetaMap: historical perspective and recent advances.MetaMap 概述:历史视角与最新进展。
J Am Med Inform Assoc. 2010 May-Jun;17(3):229-36. doi: 10.1136/jamia.2009.002733.
5
Text similarity: an alternative way to search MEDLINE.文本相似度:一种检索MEDLINE的替代方法。
Bioinformatics. 2006 Sep 15;22(18):2298-304. doi: 10.1093/bioinformatics/btl388. Epub 2006 Aug 22.
6
Duplicate publications: redundancy in plastic surgery literature.重复发表:整形外科学术文献中的冗余现象
J Plast Reconstr Aesthet Surg. 2006;59(9):975-7. doi: 10.1016/j.bjps.2005.11.039. Epub 2006 Mar 23.

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验