• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于实体标记的自动术语列表生成。

Automatic term list generation for entity tagging.

作者信息

Sandler Ted, Schein Andrew I, Ungar Lyle H

机构信息

Department of Computer and Information Science, University of Pennsylvania 3330 Walnut Street, Philadelphia, 19104, USA.

出版信息

Bioinformatics. 2006 Mar 15;22(6):651-7. doi: 10.1093/bioinformatics/bti733. Epub 2005 Oct 25.

DOI:10.1093/bioinformatics/bti733
PMID:16249261
Abstract

MOTIVATION

Many entity taggers and information extraction systems make use of lists of terms of entities such as people, places, genes or chemicals. These lists have traditionally been constructed manually. We show that distributional clustering methods which group words based on the contexts that they appear in, including neighboring words and syntactic relations extracted using a shallow parser, can be used to aid in the construction of term lists.

RESULTS

Experiments on learning lists of terms and using them as part of a gene tagger on a corpus of abstracts from the scientific literature show that our automatically generated term lists significantly boost the precision of a state-of-the-art CRF-based gene tagger to a degree that is competitive with using hand curated lists and boosts recall to a degree that surpasses that of the hand-curated lists. Our results also show that these distributional clustering methods do not generate lists as helpful as those generated by supervised techniques, but that they can be used to complement supervised techniques so as to obtain better performance.

AVAILABILITY

The code used in this paper is available from http://www.cis.upenn.edu/datamining/software_dist/autoterm/

摘要

动机

许多实体标记器和信息提取系统都使用诸如人物、地点、基因或化学物质等实体的术语列表。传统上,这些列表是手动构建的。我们表明,基于词出现的上下文(包括相邻词和使用浅层解析器提取的句法关系)对词进行分组的分布聚类方法可用于辅助构建术语列表。

结果

在科学文献摘要语料库上学习术语列表并将其用作基因标记器一部分的实验表明,我们自动生成的术语列表显著提高了基于最先进的条件随机场(CRF)的基因标记器的精度,达到了与使用人工策划列表相竞争的程度,并且召回率提高到超过人工策划列表的程度。我们的结果还表明,这些分布聚类方法生成的列表不如监督技术生成的列表有用,但它们可用于补充监督技术以获得更好的性能。

可用性

本文中使用的代码可从http://www.cis.upenn.edu/datamining/software_dist/autoterm/获取。

相似文献

1
Automatic term list generation for entity tagging.用于实体标记的自动术语列表生成。
Bioinformatics. 2006 Mar 15;22(6):651-7. doi: 10.1093/bioinformatics/bti733. Epub 2005 Oct 25.
2
Automatic assignment of biomedical categories: toward a generic approach.生物医学类别的自动分配:迈向通用方法
Bioinformatics. 2006 Mar 15;22(6):658-64. doi: 10.1093/bioinformatics/bti783. Epub 2005 Nov 15.
3
Gene name identification and normalization using a model organism database.使用模式生物数据库进行基因名称识别与标准化
J Biomed Inform. 2004 Dec;37(6):396-410. doi: 10.1016/j.jbi.2004.08.010.
4
Discovering patterns to extract protein-protein interactions from the literature: Part II.从文献中发现用于提取蛋白质-蛋白质相互作用的模式:第二部分。
Bioinformatics. 2005 Aug 1;21(15):3294-300. doi: 10.1093/bioinformatics/bti493. Epub 2005 May 12.
5
Exploring supervised and unsupervised methods to detect topics in biomedical text.探索用于检测生物医学文本主题的监督和无监督方法。
BMC Bioinformatics. 2006 Mar 16;7:140. doi: 10.1186/1471-2105-7-140.
6
Gene name ambiguity of eukaryotic nomenclatures.真核生物命名法中的基因名称歧义。
Bioinformatics. 2005 Jan 15;21(2):248-56. doi: 10.1093/bioinformatics/bth496. Epub 2004 Aug 27.
7
Wnt pathway curation using automated natural language processing: combining statistical methods with partial and full parse for knowledge extraction.使用自动自然语言处理技术对Wnt信号通路进行整理:结合统计方法与部分及完全句法分析进行知识提取。
Bioinformatics. 2005 Apr 15;21(8):1653-8. doi: 10.1093/bioinformatics/bti165. Epub 2004 Nov 25.
8
GeneInfoMiner--a web server for exploring biomedical literature using batch sequence ID.基因信息挖掘器——一个使用批量序列ID探索生物医学文献的网络服务器。
Bioinformatics. 2005 Aug 15;21(16):3452-3. doi: 10.1093/bioinformatics/bti559. Epub 2005 Jun 30.
9
Text similarity: an alternative way to search MEDLINE.文本相似度:一种检索MEDLINE的替代方法。
Bioinformatics. 2006 Sep 15;22(18):2298-304. doi: 10.1093/bioinformatics/btl388. Epub 2006 Aug 22.
10
Protein names precisely peeled off free text.蛋白质名称从自由文本中精确提取。
Bioinformatics. 2004 Aug 4;20 Suppl 1:i241-7. doi: 10.1093/bioinformatics/bth904.

引用本文的文献

1
From journal articles to computational models: a new automated tool.从期刊文章到计算模型:一种新型自动化工具。
Nat Methods. 2011 Jul 28;8(8):627-8. doi: 10.1038/nmeth.1661.
2
Frontiers of biomedical text mining: current progress.生物医学文本挖掘前沿:当前进展
Brief Bioinform. 2007 Sep;8(5):358-75. doi: 10.1093/bib/bbm045. Epub 2007 Oct 30.