• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于词素匹配的稀缺资源语言文本分词。

Morpheme matching based text tokenization for a scarce resourced language.

机构信息

Department of Computer Science, COMSATS Institute of Information Technology, Abbottabad, Pakistan.

出版信息

PLoS One. 2013 Aug 21;8(8):e68178. doi: 10.1371/journal.pone.0068178. eCollection 2013.

DOI:10.1371/journal.pone.0068178
PMID:23990871
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3749178/
Abstract

Text tokenization is a fundamental pre-processing step for almost all the information processing applications. This task is nontrivial for the scarce resourced languages such as Urdu, as there is inconsistent use of space between words. In this paper a morpheme matching based approach has been proposed for Urdu text tokenization, along with some other algorithms to solve the additional issues of boundary detection of compound words, affixation, reduplication, names and abbreviations. This study resulted into 97.28% precision, 93.71% recall, and 95.46% F1-measure; while tokenizing a corpus of 57000 words by using a morpheme list with 6400 entries.

摘要

文本分词是几乎所有信息处理应用的基本预处理步骤。对于乌尔都语等资源匮乏的语言来说,这是一项不容易的任务,因为单词之间的空格使用不一致。本文提出了一种基于词素匹配的乌尔都语文本分词方法,以及一些其他算法来解决复合词、词缀、重叠、名称和缩写的边界检测等附加问题。这项研究在使用一个包含 6400 个词素的词素列表对一个包含 57000 个单词的语料库进行分词时,得到了 97.28%的精度、93.71%的召回率和 95.46%的 F1 度量值。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/43f5/3749178/1c4da635511f/pone.0068178.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/43f5/3749178/1c4da635511f/pone.0068178.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/43f5/3749178/1c4da635511f/pone.0068178.g001.jpg

相似文献

1
Morpheme matching based text tokenization for a scarce resourced language.基于词素匹配的稀缺资源语言文本分词。
PLoS One. 2013 Aug 21;8(8):e68178. doi: 10.1371/journal.pone.0068178. eCollection 2013.
2
An unsupervised machine learning approach to segmentation of clinician-entered free text.一种用于对临床医生录入的自由文本进行分割的无监督机器学习方法。
AMIA Annu Symp Proc. 2007 Oct 11;2007:811-5.
3
Use of morphological analysis in protein name recognition.形态分析在蛋白质名称识别中的应用。
J Biomed Inform. 2004 Dec;37(6):471-82. doi: 10.1016/j.jbi.2004.08.001.
4
An easily implemented method for abbreviation expansion for the medical domain in Japanese text. A preliminary study.一种用于日语医学文本领域缩写扩展的易于实现的方法。一项初步研究。
Methods Inf Med. 2013;52(1):51-61. doi: 10.3414/ME12-01-0040. Epub 2012 Dec 7.
5
Gene name identification and normalization using a model organism database.使用模式生物数据库进行基因名称识别与标准化
J Biomed Inform. 2004 Dec;37(6):396-410. doi: 10.1016/j.jbi.2004.08.010.
6
Improving named entity recognition accuracy for gene and protein in biomedical text literature.提高生物医学文本中基因和蛋白质的命名实体识别准确性。
Int J Data Min Bioinform. 2014;10(3):239-68. doi: 10.1504/ijdmb.2014.064523.
7
ABNER: an open source tool for automatically tagging genes, proteins and other entity names in text.ABNER:一种用于在文本中自动标记基因、蛋白质及其他实体名称的开源工具。
Bioinformatics. 2005 Jul 15;21(14):3191-2. doi: 10.1093/bioinformatics/bti475. Epub 2005 Apr 28.
8
GAPSCORE: finding gene and protein names one word at a time.GAPSCORE:每次逐个查找基因和蛋白质名称。
Bioinformatics. 2004 Jan 22;20(2):216-25. doi: 10.1093/bioinformatics/btg393.
9
Using co-occurrence network structure to extract synonymous gene and protein names from MEDLINE abstracts.利用共现网络结构从MEDLINE摘要中提取同义基因和蛋白质名称。
BMC Bioinformatics. 2005 Apr 22;6:103. doi: 10.1186/1471-2105-6-103.
10
Multilingual event extraction for epidemic detection.用于疫情检测的多语言事件提取
Artif Intell Med. 2015 Oct;65(2):131-43. doi: 10.1016/j.artmed.2015.06.005. Epub 2015 Jul 17.

引用本文的文献

1
A survey on text classification: Practical perspectives on the Italian language.文本分类调查:意大利语的实际视角。
PLoS One. 2022 Jul 6;17(7):e0270904. doi: 10.1371/journal.pone.0270904. eCollection 2022.