• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用人工神经网络识别拉丁学名。

Recognition of Latin scientific names using artificial neural networks.

作者信息

Little Damon P

机构信息

Lewis B. and Dorothy Cullman Program for Molecular Systematics New York Botanical Garden Bronx New York 10458-5126 USA.

PhD Program in Plant Biology Graduate Center City University of New York New York New York 10016-4309 USA.

出版信息

Appl Plant Sci. 2020 Jul 31;8(7):e11378. doi: 10.1002/aps3.11378. eCollection 2020 Jul.

DOI:10.1002/aps3.11378
PMID:32765977
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7394707/
Abstract

PREMISE

The automated recognition of Latin scientific names within vernacular text has many applications, including text mining, search indexing, and automated specimen-label processing. Most published solutions are computationally inefficient, incapable of running within a web browser, and focus on texts in English, thus omitting a substantial portion of biodiversity literature.

METHODS AND RESULTS

An open-source browser-executable solution, Quaesitor, is presented here. It uses pattern matching (regular expressions) in combination with an ensembled classifier composed of an inclusion dictionary search (Bloom filter), a trio of complementary neural networks that differ in their approach to encoding text, and word length to automatically identify Latin scientific names in the 16 most common languages for biodiversity articles.

CONCLUSIONS

In combination, the classifiers can recognize Latin scientific names in isolation or embedded within the languages used for >96% of biodiversity literature titles. For three different data sets, they resulted in a 0.80-0.97 recall and a 0.69-0.84 precision at a rate of 8.6 ms/word.

摘要

前提

在白话文本中自动识别拉丁学名有许多应用,包括文本挖掘、搜索索引和自动标本标签处理。大多数已发表的解决方案计算效率低下,无法在网络浏览器中运行,并且专注于英文文本,从而遗漏了很大一部分生物多样性文献。

方法与结果

本文介绍了一种开源的浏览器可执行解决方案Quaesitor。它使用模式匹配(正则表达式),并结合一个集成分类器,该分类器由包含字典搜索(布隆过滤器)、三个在文本编码方法上不同的互补神经网络以及单词长度组成,以自动识别生物多样性文章中16种最常用语言的拉丁学名。

结论

这些分类器相结合,可以单独识别拉丁学名,也可以识别嵌入在超过96%的生物多样性文献标题所用语言中的拉丁学名。对于三个不同的数据集,它们在8.6毫秒/单词的速度下,召回率为0.80 - 0.97,精确率为0.69 - 0.84。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f180/7394707/33678bafd284/APS3-8-e11378-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f180/7394707/677e85f2c068/APS3-8-e11378-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f180/7394707/33678bafd284/APS3-8-e11378-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f180/7394707/677e85f2c068/APS3-8-e11378-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f180/7394707/33678bafd284/APS3-8-e11378-g002.jpg

相似文献

1
Recognition of Latin scientific names using artificial neural networks.使用人工神经网络识别拉丁学名。
Appl Plant Sci. 2020 Jul 31;8(7):e11378. doi: 10.1002/aps3.11378. eCollection 2020 Jul.
2
NetiNeti: discovery of scientific names from text using machine learning methods.内提内提:使用机器学习方法从文本中发现科学名称。
BMC Bioinformatics. 2012 Aug 22;13:211. doi: 10.1186/1471-2105-13-211.
3
Data mining in conservation research using Latin and vernacular species names.利用拉丁学名和俗名进行保护研究中的数据挖掘。
PeerJ. 2016 Jul 19;4:e2202. doi: 10.7717/peerj.2202. eCollection 2016.
4
Building a protein name dictionary from full text: a machine learning term extraction approach.从全文构建蛋白质名称词典:一种机器学习术语提取方法。
BMC Bioinformatics. 2005 Apr 7;6:88. doi: 10.1186/1471-2105-6-88.
5
Assessment of disease named entity recognition on a corpus of annotated sentences.基于带注释句子语料库的疾病命名实体识别评估。
BMC Bioinformatics. 2008 Apr 11;9 Suppl 3(Suppl 3):S3. doi: 10.1186/1471-2105-9-S3-S3.
6
Dictionary-based matching graph network for biomedical named entity recognition.基于词典匹配图网络的生物医学命名实体识别。
Sci Rep. 2023 Dec 8;13(1):21667. doi: 10.1038/s41598-023-48564-w.
7
Chemical identification and indexing in full-text articles: an overview of the NLM-Chem track at BioCreative VII.全文文章中的化学物质鉴定与标引:NLM-Chem 在 BioCreative VII 挑战赛中的概述
Database (Oxford). 2023 Mar 7;2023. doi: 10.1093/database/baad005.
8
Folic acid supplementation and malaria susceptibility and severity among people taking antifolate antimalarial drugs in endemic areas.在流行地区,服用抗叶酸抗疟药物的人群中,叶酸补充剂与疟疾易感性和严重程度的关系。
Cochrane Database Syst Rev. 2022 Feb 1;2(2022):CD014217. doi: 10.1002/14651858.CD014217.
9
Negation recognition in clinical natural language processing using a combination of the NegEx algorithm and a convolutional neural network.使用 NegEx 算法和卷积神经网络相结合的方法进行临床自然语言处理中的否定识别。
BMC Med Inform Decis Mak. 2023 Oct 13;23(1):216. doi: 10.1186/s12911-023-02301-5.
10
Constructing a biodiversity terminological inventory.构建生物多样性术语库
PLoS One. 2017 Apr 17;12(4):e0175277. doi: 10.1371/journal.pone.0175277. eCollection 2017.

引用本文的文献

1
Hespi: a pipeline for automatically detecting information from herbarium specimen sheets.Hespi:一种用于从植物标本薄片自动检测信息的流程。
Bioscience. 2025 Jul 17;75(8):637-648. doi: 10.1093/biosci/biaf042. eCollection 2025 Aug.

本文引用的文献

1
COPIOUS: A gold standard corpus of named entities towards extracting species occurrence from biodiversity literature.COPIOUS:一个用于从生物多样性文献中提取物种出现信息的命名实体黄金标准语料库。
Biodivers Data J. 2019 Jan 22(7):e29626. doi: 10.3897/BDJ.7.e29626. eCollection 2019.
2
Precrec: fast and accurate precision-recall and ROC curve calculations in R.Precrec:在R语言中进行快速准确的精确率-召回率及ROC曲线计算。
Bioinformatics. 2017 Jan 1;33(1):145-147. doi: 10.1093/bioinformatics/btw570. Epub 2016 Sep 1.
3
Deep learning in bioinformatics.
生物信息学中的深度学习。
Brief Bioinform. 2017 Sep 1;18(5):851-869. doi: 10.1093/bib/bbw068.
4
Deep learning.深度学习。
Nature. 2015 May 28;521(7553):436-44. doi: 10.1038/nature14539.
5
Facing Imbalanced Data Recommendations for the Use of Performance Metrics.面对数据不均衡时性能指标使用建议
Int Conf Affect Comput Intell Interact Workshops. 2013;2013:245-251. doi: 10.1109/ACII.2013.47.
6
The SPECIES and ORGANISMS Resources for Fast and Accurate Identification of Taxonomic Names in Text.用于快速准确识别文本中分类名称的物种和生物体资源。
PLoS One. 2013 Jun 18;8(6):e65390. doi: 10.1371/journal.pone.0065390. Print 2013.
7
NetiNeti: discovery of scientific names from text using machine learning methods.内提内提:使用机器学习方法从文本中发现科学名称。
BMC Bioinformatics. 2012 Aug 22;13:211. doi: 10.1186/1471-2105-13-211.
8
OrganismTagger: detection, normalization and grounding of organism entities in biomedical documents.生物标记器:在生物医学文献中检测、规范和定位生物实体。
Bioinformatics. 2011 Oct 1;27(19):2721-9. doi: 10.1093/bioinformatics/btr452. Epub 2011 Aug 9.
9
LINNAEUS: a species name identification system for biomedical literature.林奈氏:生物医学文献的物种名称识别系统。
BMC Bioinformatics. 2010 Feb 11;11:85. doi: 10.1186/1471-2105-11-85.
10
Text processing through Web services: calling Whatizit.通过网络服务进行文本处理:调用Whatizit。
Bioinformatics. 2008 Jan 15;24(2):296-8. doi: 10.1093/bioinformatics/btm557. Epub 2007 Nov 15.