• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

SimText:一个用于生物医学实体之间相似性的交互式分析和可视化的文本挖掘框架。

SimText: a text mining framework for interactive analysis and visualization of similarities among biomedical entities.

机构信息

Cologne Center for Genomics (CCG), Medical Faculty of the University of Cologne, University Hospital of Cologne, Cologne 50931, Germany.

Universidad del Desarrollo, Centro de Genética y Genómica, Facultad de Medicina Clínica Alemana, Santiago 7590943, Chile.

出版信息

Bioinformatics. 2021 Nov 18;37(22):4285-4287. doi: 10.1093/bioinformatics/btab365.

DOI:10.1093/bioinformatics/btab365
PMID:34037702
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9502138/
Abstract

SUMMARY

Literature exploration in PubMed on a large number of biomedical entities (e.g. genes, diseases or experiments) can be time-consuming and challenging, especially when assessing associations between entities. Here, we describe SimText, a user-friendly toolset that provides customizable and systematic workflows for the analysis of similarities among a set of entities based on text. SimText can be used for (i) text collection from PubMed and extraction of words with different text mining approaches, and (ii) interactive analysis and visualization of data using unsupervised learning techniques in an interactive app.

AVAILABILITY AND IMPLEMENTATION

We developed SimText as an open-source R software and integrated it into Galaxy (https://usegalaxy.eu), an online data analysis platform with supporting self-learning training material available at https://training.galaxyproject.org. A command-line version of the toolset is available for download from GitHub (https://github.com/dlal-group/simtext) or as Docker image (https://hub.docker.com/r/dlalgroup/simtext/tags.).

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

摘要

在 PubMed 上对大量生物医学实体(例如基因、疾病或实验)进行文献探索可能既耗时又具有挑战性,特别是在评估实体之间的关联时。在这里,我们描述了 SimText,这是一个用户友好的工具集,它提供了可定制和系统的工作流程,用于根据文本分析一组实体之间的相似性。SimText 可用于:(i)从 PubMed 中收集文本并使用不同的文本挖掘方法提取单词,以及(ii)使用无监督学习技术在交互式应用程序中对数据进行交互式分析和可视化。

可用性和实现

我们将 SimText 开发为开源 R 软件,并将其集成到 Galaxy(https://usegalaxy.eu)中,这是一个具有在线数据分析平台和支持自学培训材料的平台,可在 https://training.galaxyproject.org 上获取。该工具集的命令行版本可从 GitHub(https://github.com/dlal-group/simtext)或 Docker 映像(https://hub.docker.com/r/dlalgroup/simtext/tags.)下载。

补充信息

补充数据可在 Bioinformatics 在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cea9/9502138/16dc0dffecce/btab365f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cea9/9502138/16dc0dffecce/btab365f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/cea9/9502138/16dc0dffecce/btab365f1.jpg

相似文献

1
SimText: a text mining framework for interactive analysis and visualization of similarities among biomedical entities.SimText:一个用于生物医学实体之间相似性的交互式分析和可视化的文本挖掘框架。
Bioinformatics. 2021 Nov 18;37(22):4285-4287. doi: 10.1093/bioinformatics/btab365.
2
PubMedPortable: A Framework for Supporting the Development of Text Mining Applications.PubMed便携式:支持文本挖掘应用开发的框架。
PLoS One. 2016 Oct 5;11(10):e0163794. doi: 10.1371/journal.pone.0163794. eCollection 2016.
3
UCSCXenaShiny: an R/CRAN package for interactive analysis of UCSC Xena data.UCSCXenaShiny:一个用于交互式分析 UCSC Xena 数据的 R/CRAN 包。
Bioinformatics. 2022 Jan 3;38(2):527-529. doi: 10.1093/bioinformatics/btab561.
4
Galaxy mothur Toolset (GmT): a user-friendly application for 16S rRNA gene sequencing analysis using mothur.Galaxy mothur 工具集(GmT):一个使用 mothur 进行 16S rRNA 基因测序分析的用户友好型应用程序。
Gigascience. 2019 Feb 1;8(2). doi: 10.1093/gigascience/giy166.
5
Exploiting and assessing multi-source data for supervised biomedical named entity recognition.利用和评估多源数据进行有监督的生物医学命名实体识别。
Bioinformatics. 2018 Jul 15;34(14):2474-2482. doi: 10.1093/bioinformatics/bty152.
6
ProteomeExpert: a Docker image-based web server for exploring, modeling, visualizing and mining quantitative proteomic datasets.蛋白质组专家:一个基于Docker镜像的网络服务器,用于探索、建模、可视化和挖掘定量蛋白质组数据集。
Bioinformatics. 2021 Apr 19;37(2):273-275. doi: 10.1093/bioinformatics/btaa1088.
7
Making whole genome multiple alignments usable for biologists.使全基因组多重比对对生物学家可用。
Bioinformatics. 2011 Sep 1;27(17):2426-8. doi: 10.1093/bioinformatics/btr398. Epub 2011 Jul 19.
8
BioVAE: a pre-trained latent variable language model for biomedical text mining.BioVAE:用于生物医学文本挖掘的预训练潜在变量语言模型。
Bioinformatics. 2022 Jan 12;38(3):872-874. doi: 10.1093/bioinformatics/btab702.
9
MPTM: A tool for mining protein post-translational modifications from literature.MPTM:一种从文献中挖掘蛋白质翻译后修饰的工具。
J Bioinform Comput Biol. 2017 Oct;15(5):1740005. doi: 10.1142/S0219720017400054. Epub 2017 Sep 11.
10
SEDA 2024 update: enhancing the SEquence DAtaset builder for seamless integration into automated data analysis pipelines.SEDA 2024 更新:增强 Sequence DAtaset builder,实现与自动化数据分析管道的无缝集成。
BMC Bioinformatics. 2024 May 27;25(1):200. doi: 10.1186/s12859-024-05818-2.

引用本文的文献

1
ENQUIRE automatically reconstructs, expands, and drives enrichment analysis of gene and Mesh co-occurrence networks from context-specific biomedical literature.ENQUIRE可根据特定背景的生物医学文献自动重建、扩展并推动基因与医学主题词(Mesh)共现网络的富集分析。
PLoS Comput Biol. 2025 Feb 11;21(2):e1012745. doi: 10.1371/journal.pcbi.1012745. eCollection 2025 Feb.
2
Data-driven information extraction and enrichment of molecular profiling data for cancer cell lines.基于数据驱动的癌细胞系分子图谱数据提取与富集
Bioinform Adv. 2024 Mar 16;4(1):vbae045. doi: 10.1093/bioadv/vbae045. eCollection 2024.
3
Cluster-based text mining for extracting drug candidates for the prevention of COVID-19 from the biomedical literature.
基于聚类的文本挖掘:从生物医学文献中提取预防新型冠状病毒肺炎的候选药物
J Taibah Univ Med Sci. 2023 Aug;18(4):787-801. doi: 10.1016/j.jtumed.2022.12.015. Epub 2023 Jan 4.