• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用标记格设计模式和改进的维特比算法构建生物医学标记器。

Building a biomedical tokenizer using the token lattice design pattern and the adapted Viterbi algorithm.

机构信息

Department of Computer Science, University of Victoria, Victoria, Canada.

出版信息

BMC Bioinformatics. 2011 Jun 9;12 Suppl 3(Suppl 3):S1. doi: 10.1186/1471-2105-12-S3-S1.

DOI:10.1186/1471-2105-12-S3-S1
PMID:21658288
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3111587/
Abstract

BACKGROUND

Tokenization is an important component of language processing yet there is no widely accepted tokenization method for English texts, including biomedical texts. Other than rule based techniques, tokenization in the biomedical domain has been regarded as a classification task. Biomedical classifier-based tokenizers either split or join textual objects through classification to form tokens. The idiosyncratic nature of each biomedical tokenizer's output complicates adoption and reuse. Furthermore, biomedical tokenizers generally lack guidance on how to apply an existing tokenizer to a new domain (subdomain). We identify and complete a novel tokenizer design pattern and suggest a systematic approach to tokenizer creation. We implement a tokenizer based on our design pattern that combines regular expressions and machine learning. Our machine learning approach differs from the previous split-join classification approaches. We evaluate our approach against three other tokenizers on the task of tokenizing biomedical text.

RESULTS

Medpost and our adapted Viterbi tokenizer performed best with a 92.9% and 92.4% accuracy respectively.

CONCLUSIONS

Our evaluation of our design pattern and guidelines supports our claim that the design pattern and guidelines are a viable approach to tokenizer construction (producing tokenizers matching leading custom-built tokenizers in a particular domain). Our evaluation also demonstrates that ambiguous tokenizations can be disambiguated through POS tagging. In doing so, POS tag sequences and training data have a significant impact on proper text tokenization.

摘要

背景

标记化是语言处理的一个重要组成部分,但目前还没有被广泛接受的英语文本(包括生物医学文本)标记化方法。除了基于规则的技术外,生物医学领域的标记化一直被视为分类任务。生物医学分类器的标记器通过分类来分割或合并文本对象以形成标记。每个生物医学标记器输出的特殊性使得采用和重用变得复杂。此外,生物医学标记器通常缺乏关于如何将现有标记器应用于新领域(子领域)的指导。我们确定并完成了一种新的标记器设计模式,并提出了一种创建标记器的系统方法。我们实现了一个基于我们的设计模式的标记器,该标记器结合了正则表达式和机器学习。我们的机器学习方法与以前的分割-合并分类方法不同。我们在生物医学文本标记任务上评估了我们的方法与其他三个标记器的比较。

结果

Medpost 和我们改编的维特比标记器的准确率分别为 92.9%和 92.4%。

结论

我们对设计模式和指南的评估支持我们的主张,即设计模式和指南是构建标记器的可行方法(生成的标记器在特定领域与领先的定制标记器匹配)。我们的评估还表明,通过词性标注可以消除歧义标记。这样,词性标记序列和训练数据对正确的文本标记化有重大影响。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ad5a/3111587/44a651320ff0/1471-2105-12-S3-S1-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ad5a/3111587/37bf9eef0616/1471-2105-12-S3-S1-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ad5a/3111587/44a651320ff0/1471-2105-12-S3-S1-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ad5a/3111587/37bf9eef0616/1471-2105-12-S3-S1-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ad5a/3111587/44a651320ff0/1471-2105-12-S3-S1-2.jpg

相似文献

1
Building a biomedical tokenizer using the token lattice design pattern and the adapted Viterbi algorithm.使用标记格设计模式和改进的维特比算法构建生物医学标记器。
BMC Bioinformatics. 2011 Jun 9;12 Suppl 3(Suppl 3):S1. doi: 10.1186/1471-2105-12-S3-S1.
2
ChemTok: A New Rule Based Tokenizer for Chemical Named Entity Recognition.ChemTok:一种用于化学命名实体识别的新型基于规则的分词器。
Biomed Res Int. 2016;2016:4248026. doi: 10.1155/2016/4248026. Epub 2016 Jan 28.
3
Effect of tokenization on transformers for biological sequences.词元化对生物序列变压器模型的影响。
Bioinformatics. 2024 Mar 29;40(4). doi: 10.1093/bioinformatics/btae196.
4
The first step is the hardest: pitfalls of representing and tokenizing temporal data for large language models.第一步是最困难的:为大型语言模型表示和标记时间数据的陷阱。
J Am Med Inform Assoc. 2024 Sep 1;31(9):2151-2158. doi: 10.1093/jamia/ocae090.
5
Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation.基于深度神经网络的临床相关生物医学文本摘要:模型开发与验证。
J Med Internet Res. 2020 Oct 23;22(10):e19810. doi: 10.2196/19810.
6
What Makes for Good Tokenizers in Vision Transformer?视觉Transformer中什么样的词元分割器才是好的?
IEEE Trans Pattern Anal Mach Intell. 2023 Nov;45(11):13011-13023. doi: 10.1109/TPAMI.2022.3231442. Epub 2023 Oct 3.
7
A token centric part-of-speech tagger for biomedical text.一种用于生物医学文本的以词元为中心的词性标注器。
Artif Intell Med. 2014 May;61(1):11-20. doi: 10.1016/j.artmed.2014.03.005. Epub 2014 Mar 26.
8
A Part-Of-Speech term weighting scheme for biomedical information retrieval.一种用于生物医学信息检索的词性术语加权方案。
J Biomed Inform. 2016 Oct;63:379-389. doi: 10.1016/j.jbi.2016.08.026. Epub 2016 Sep 1.
9
A modular framework for biomedical concept recognition.生物医学概念识别的模块化框架。
BMC Bioinformatics. 2013 Sep 24;14:281. doi: 10.1186/1471-2105-14-281.
10
An unsupervised machine learning approach to segmentation of clinician-entered free text.一种用于对临床医生录入的自由文本进行分割的无监督机器学习方法。
AMIA Annu Symp Proc. 2007 Oct 11;2007:811-5.

引用本文的文献

1
ChemTok: A New Rule Based Tokenizer for Chemical Named Entity Recognition.ChemTok:一种用于化学命名实体识别的新型基于规则的分词器。
Biomed Res Int. 2016;2016:4248026. doi: 10.1155/2016/4248026. Epub 2016 Jan 28.
2
CHEMDNER: The drugs and chemical names extraction challenge.CHEMDNER:药物和化学名称提取挑战赛。
J Cheminform. 2015 Jan 19;7(Suppl 1 Text mining for chemistry and the CHEMDNER track):S1. doi: 10.1186/1758-2946-7-S1-S1. eCollection 2015.
3
Natural language processing pipelines to annotate BioC collections with an application to the NCBI disease corpus.

本文引用的文献

1
An unsupervised machine learning approach to segmentation of clinician-entered free text.一种用于对临床医生录入的自由文本进行分割的无监督机器学习方法。
AMIA Annu Symp Proc. 2007 Oct 11;2007:811-5.
2
MedPost: a part-of-speech tagger for bioMedical text.MedPost:一种用于生物医学文本的词性标注器。
Bioinformatics. 2004 Sep 22;20(14):2320-1. doi: 10.1093/bioinformatics/bth227. Epub 2004 Apr 8.
用于注释BioC文集的自然语言处理管道及其在NCBI疾病语料库中的应用。
Database (Oxford). 2014 Jun 16;2014. doi: 10.1093/database/bau056. Print 2014.
4
Topics in machine learning for biomedical literature analysis and text retrieval.用于生物医学文献分析和文本检索的机器学习主题。
BMC Bioinformatics. 2011 Jun 9;12 Suppl 3(Suppl 3):I1. doi: 10.1186/1471-2105-12-S3-I1.