• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

从非结构化元数据预测结构化元数据。

Predicting structured metadata from unstructured metadata.

作者信息

Posch Lisa, Panahiazar Maryam, Dumontier Michel, Gevaert Olivier

机构信息

GESIS - Leibniz Institute for the Social Sciences, Cologne, Germany.

Institute for Web Science and Technologies, University of Koblenz-Landau, Koblenz, Germany.

出版信息

Database (Oxford). 2016 Jan 1;2016. doi: 10.1093/database/baw080.

DOI:10.1093/database/baw080
PMID:28637268
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4892825/
Abstract

Enormous amounts of biomedical data have been and are being produced by investigators all over the world. However, one crucial and limiting factor in data reuse is accurate, structured and complete description of the data or data about the data-defined as metadata. We propose a framework to predict structured metadata terms from unstructured metadata for improving quality and quantity of metadata, using the Gene Expression Omnibus (GEO) microarray database. Our framework consists of classifiers trained using term frequency-inverse document frequency (TF-IDF) features and a second approach based on topics modeled using a Latent Dirichlet Allocation model (LDA) to reduce the dimensionality of the unstructured data. Our results on the GEO database show that structured metadata terms can be the most accurately predicted using the TF-IDF approach followed by LDA both outperforming the majority vote baseline. While some accuracy is lost by the dimensionality reduction of LDA, the difference is small for elements with few possible values, and there is a large improvement over the majority classifier baseline. Overall this is a promising approach for metadata prediction that is likely to be applicable to other datasets and has implications for researchers interested in biomedical metadata curation and metadata prediction.

摘要

世界各地的研究人员已经并正在产生大量的生物医学数据。然而,数据再利用中的一个关键限制因素是对数据或关于数据的数据(定义为元数据)进行准确、结构化和完整的描述。我们提出了一个框架,利用基因表达综合数据库(GEO)微阵列数据库,从非结构化元数据中预测结构化元数据术语,以提高元数据的质量和数量。我们的框架由使用词频-逆文档频率(TF-IDF)特征训练的分类器和基于潜在狄利克雷分配模型(LDA)建模的主题的第二种方法组成,以降低非结构化数据的维度。我们在GEO数据库上的结果表明,使用TF-IDF方法可以最准确地预测结构化元数据术语,其次是LDA,两者都优于多数投票基线。虽然LDA的降维会损失一些准确性,但对于可能值较少的元素,差异很小,并且比多数分类器基线有很大改进。总体而言,这是一种有前途的元数据预测方法,可能适用于其他数据集,对生物医学元数据管理和元数据预测感兴趣的研究人员具有重要意义。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/a1b1986e8f96/baw080f5p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/cd9646bcbcf9/baw080f1p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/73795d921518/baw080f2p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/acc60959164a/baw080f3p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/bafa19bf17f5/baw080f4p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/a1b1986e8f96/baw080f5p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/cd9646bcbcf9/baw080f1p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/73795d921518/baw080f2p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/acc60959164a/baw080f3p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/bafa19bf17f5/baw080f4p.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f69/4892825/a1b1986e8f96/baw080f5p.jpg

相似文献

1
Predicting structured metadata from unstructured metadata.从非结构化元数据预测结构化元数据。
Database (Oxford). 2016 Jan 1;2016. doi: 10.1093/database/baw080.
2
Predicting biomedical metadata in CEDAR: A study of Gene Expression Omnibus (GEO).预测CEDAR中的生物医学元数据:基因表达综合数据库(GEO)研究
J Biomed Inform. 2017 Aug;72:132-139. doi: 10.1016/j.jbi.2017.06.017. Epub 2017 Jun 16.
3
Restructured GEO: restructuring Gene Expression Omnibus metadata for genome dynamics analysis.重构 GEO:用于基因组动态分析的基因表达综合(GEO)元数据重构。
Database (Oxford). 2019 Jan 1;2019:bay145. doi: 10.1093/database/bay145.
4
Discovery of perturbation gene targets via free text metadata mining in Gene Expression Omnibus.通过在基因表达综合数据库中进行自由文本元数据挖掘发现干扰基因靶标。
Comput Biol Chem. 2019 Jun;80:152-158. doi: 10.1016/j.compbiolchem.2019.03.014. Epub 2019 Mar 24.
5
Using phrases and document metadata to improve topic modeling of clinical reports.使用短语和文档元数据改进临床报告的主题建模。
J Biomed Inform. 2016 Jun;61:260-6. doi: 10.1016/j.jbi.2016.04.005. Epub 2016 Apr 21.
6
Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata.通过聚类进行清理:解决生物医学元数据中数据质量问题的方法。
BMC Bioinformatics. 2017 Sep 18;18(1):415. doi: 10.1186/s12859-017-1832-4.
7
Using association rule mining and ontologies to generate metadata recommendations from multiple biomedical databases.使用关联规则挖掘和本体生成来自多个生物医学数据库的元数据推荐。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz059.
8
GEOMetaCuration: a web-based application for accurate manual curation of Gene Expression Omnibus metadata.GEOMetaCuration:一个基于网络的应用程序,用于准确地手动整理基因表达综合数据集元数据。
Database (Oxford). 2018 Jan 1;2018. doi: 10.1093/database/bay019.
9
Automating literature screening and curation with applications to computational neuroscience.运用到计算神经科学中的文献自动筛选和管理。
J Am Med Inform Assoc. 2024 Jun 20;31(7):1463-1470. doi: 10.1093/jamia/ocae097.
10
Mixture classification model based on clinical markers for breast cancer prognosis.基于临床标志物的乳腺癌预后混合分类模型。
Artif Intell Med. 2010 Feb-Mar;48(2-3):129-37. doi: 10.1016/j.artmed.2009.07.008. Epub 2009 Dec 14.

引用本文的文献

1
Annotating publicly-available samples and studies using interpretable modeling of unstructured metadata.使用非结构化元数据的可解释模型对公开可用的样本和研究进行注释。
Brief Bioinform. 2024 Nov 22;26(1). doi: 10.1093/bib/bbae652.
2
Metadata recommendations for light logging and dosimetry datasets.光记录和剂量测定数据集的元数据建议。
BMC Digit Health. 2024;2(1):73. doi: 10.1186/s44247-024-00113-9. Epub 2024 Aug 28.
3
Systematic tissue annotations of genomics samples by modeling unstructured metadata.通过对非结构化元数据进行建模来对基因组学样本进行系统的组织注释。

本文引用的文献

1
The center for expanded data annotation and retrieval.扩展数据注释与检索中心
J Am Med Inform Assoc. 2015 Nov;22(6):1148-52. doi: 10.1093/jamia/ocv048. Epub 2015 Jun 25.
2
ImmPort: disseminating data to the public for the future of immunology.免疫数据库(ImmPort):为免疫学的未来向公众传播数据。
Immunol Res. 2014 May;58(2-3):234-9. doi: 10.1007/s12026-014-8516-1.
3
Computational resources for high-dimensional immune analysis from the Human Immunology Project Consortium.来自人类免疫学项目联盟的用于高维免疫分析的计算资源。
Nat Commun. 2022 Nov 8;13(1):6736. doi: 10.1038/s41467-022-34435-x.
4
Maximizing the reusability of gene expression data by predicting missing metadata.通过预测缺失的元数据来最大化基因表达数据的可重用性。
PLoS Comput Biol. 2020 Nov 6;16(11):e1007450. doi: 10.1371/journal.pcbi.1007450. eCollection 2020 Nov.
5
The reuse of public datasets in the life sciences: potential risks and rewards.生命科学中公共数据集的再利用:潜在风险与回报
PeerJ. 2020 Sep 22;8:e9954. doi: 10.7717/peerj.9954. eCollection 2020.
6
Fast and Accurate Metadata Authoring Using Ontology-Based Recommendations.使用基于本体的建议实现快速准确的元数据创作。
AMIA Annu Symp Proc. 2018 Apr 16;2017:1272-1281. eCollection 2017.
7
Predicting biomedical metadata in CEDAR: A study of Gene Expression Omnibus (GEO).预测CEDAR中的生物医学元数据:基因表达综合数据库(GEO)研究
J Biomed Inform. 2017 Aug;72:132-139. doi: 10.1016/j.jbi.2017.06.017. Epub 2017 Jun 16.
Nat Biotechnol. 2014 Feb;32(2):146-8. doi: 10.1038/nbt.2777. Epub 2014 Jan 19.
4
NCBI's Database of Genotypes and Phenotypes: dbGaP.NCBI 的基因型和表型数据库:dbGaP。
Nucleic Acids Res. 2014 Jan;42(Database issue):D975-9. doi: 10.1093/nar/gkt1211. Epub 2013 Dec 1.
5
AuthorReward: increasing community curation in biological knowledge wikis through automated authorship quantification.作者奖励:通过自动作者量化提高生物知识维基社区的策展水平。
Bioinformatics. 2013 Jul 15;29(14):1837-9. doi: 10.1093/bioinformatics/btt284. Epub 2013 Jun 3.
6
NCBI GEO: archive for functional genomics data sets--update.NCBI GEO:功能基因组学数据集存档 - 更新。
Nucleic Acids Res. 2013 Jan;41(Database issue):D991-5. doi: 10.1093/nar/gks1193. Epub 2012 Nov 27.
7
Meeting Report: BioSharing at ISMB 2010.会议报告:2010年国际智能分子生物学会议上的生物数据共享
Stand Genomic Sci. 2010 Dec 4;3(3):254-8. doi: 10.4056/sigs/1403501.
8
Minimum Information About a Microarray Experiment (MIAME)--successes, failures, challenges.微阵列实验的最少信息(MIAME)——成功、失败与挑战
ScientificWorldJournal. 2009 May 29;9:420-3. doi: 10.1100/tsw.2009.57.