对具有相似纳入标准特征的临床试验进行聚类。

Clustering clinical trials with similar eligibility criteria features.

作者信息

Hao Tianyong, Rusanov Alexander, Boland Mary Regina, Weng Chunhua

机构信息

Department of Biomedical Informatics, Columbia University, New York, NY, United States.

Department of Anesthesiology, Columbia University, New York, NY, United States.

出版信息

J Biomed Inform. 2014 Dec;52:112-20. doi: 10.1016/j.jbi.2014.01.009. Epub 2014 Feb 1.

DOI:10.1016/j.jbi.2014.01.009

PMID:24496068

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4119097/

Abstract

OBJECTIVES

To automatically identify and cluster clinical trials with similar eligibility features.

METHODS

Using the public repository ClinicalTrials.gov as the data source, we extracted semantic features from the eligibility criteria text of all clinical trials and constructed a trial-feature matrix. We calculated the pairwise similarities for all clinical trials based on their eligibility features. For all trials, by selecting one trial as the center each time, we identified trials whose similarities to the central trial were greater than or equal to a predefined threshold and constructed center-based clusters. Then we identified unique trial sets with distinctive trial membership compositions from center-based clusters by disregarding their structural information.

RESULTS

From the 145,745 clinical trials on ClinicalTrials.gov, we extracted 5,508,491 semantic features. Of these, 459,936 were unique and 160,951 were shared by at least one pair of trials. Crowdsourcing the cluster evaluation using Amazon Mechanical Turk (MTurk), we identified the optimal similarity threshold, 0.9. Using this threshold, we generated 8806 center-based clusters. Evaluation of a sample of the clusters by MTurk resulted in a mean score 4.331±0.796 on a scale of 1-5 (5 indicating "strongly agree that the trials in the cluster are similar").

CONCLUSIONS

We contribute an automated approach to clustering clinical trials with similar eligibility features. This approach can be potentially useful for investigating knowledge reuse patterns in clinical trial eligibility criteria designs and for improving clinical trial recruitment. We also contribute an effective crowdsourcing method for evaluating informatics interventions.

摘要

目的

自动识别并聚类具有相似纳入标准特征的临床试验。

方法

以公共数据库ClinicalTrials.gov作为数据源，我们从所有临床试验的纳入标准文本中提取语义特征，并构建了一个试验-特征矩阵。我们基于纳入标准特征计算了所有临床试验之间的成对相似度。对于所有试验，每次选择一个试验作为中心，我们识别出与中心试验相似度大于或等于预定义阈值的试验，并构建基于中心的聚类。然后，我们通过忽略基于中心的聚类的结构信息，识别出具有独特试验成员组成的独特试验集。

结果

从ClinicalTrials.gov上的145,745项临床试验中，我们提取了5,508,491个语义特征。其中，459,936个是独特的，160,951个至少被一对试验共享。使用亚马逊土耳其机器人（MTurk）众包聚类评估，我们确定了最佳相似度阈值为0.9。使用这个阈值，我们生成了8806个基于中心的聚类。MTurk对聚类样本的评估在1-5分的量表上得出平均分数为4.331±0.796（5表示“强烈同意聚类中的试验相似”）。

结论

我们提供了一种自动方法来聚类具有相似纳入标准特征的临床试验。这种方法可能有助于研究临床试验纳入标准设计中的知识复用模式以及改善临床试验招募。我们还提供了一种有效的众包方法来评估信息学干预措施。

相似文献

Clustering clinical trials with similar eligibility criteria features.

J Biomed Inform. 2014 Dec;52:112-20. doi: 10.1016/j.jbi.2014.01.009. Epub 2014 Feb 1.

Feasibility of feature-based indexing, clustering, and search of clinical trials. A case study of breast cancer trials from ClinicalTrials.gov.

Methods Inf Med. 2013;52(5):382-94. doi: 10.3414/ME12-01-0092. Epub 2013 May 13.

Enhancing reuse of structured eligibility criteria and supporting their relaxation.

J Biomed Inform. 2015 Aug;56:205-19. doi: 10.1016/j.jbi.2015.05.005. Epub 2015 May 23.

Unsupervised mining of frequent tags for clinical eligibility text indexing.

J Biomed Inform. 2013 Dec;46(6):1145-51. doi: 10.1016/j.jbi.2013.08.012. Epub 2013 Sep 10.

Dynamic categorization of clinical research eligibility criteria by hierarchical clustering.

J Biomed Inform. 2011 Dec;44(6):927-35. doi: 10.1016/j.jbi.2011.06.001. Epub 2011 Jun 12.

Graph-based biomedical text summarization: An itemset mining and sentence clustering approach.

J Biomed Inform. 2018 Aug;84:42-58. doi: 10.1016/j.jbi.2018.06.005. Epub 2018 Jun 15.

Investigating the Capabilities of FHIR Search for Clinical Trial Phenotyping.

Stud Health Technol Inform. 2018;253:3-7.

Semantic categorization of Chinese eligibility criteria in clinical trials using machine learning methods.

BMC Med Inform Decis Mak. 2021 Apr 15;21(1):128. doi: 10.1186/s12911-021-01487-w.

A shared latent space matrix factorisation method for recommending new trial evidence for systematic review updates.

J Biomed Inform. 2018 Mar;79:32-40. doi: 10.1016/j.jbi.2018.01.008. Epub 2018 Feb 2.

EliXR: an approach to eligibility criteria extraction and representation.

J Am Med Inform Assoc. 2011 Dec;18 Suppl 1(Suppl 1):i116-24. doi: 10.1136/amiajnl-2011-000321. Epub 2011 Jul 31.

引用本文的文献

A review of research on eligibility criteria for clinical trials.

Clin Exp Med. 2023 Oct;23(6):1867-1879. doi: 10.1007/s10238-022-00975-1. Epub 2023 Jan 5.

A knowledge graph of clinical trials ([Formula: see text]).

Sci Rep. 2022 Mar 18;12(1):4724. doi: 10.1038/s41598-022-08454-z.

Leveraging electronic health record data for clinical trial planning by assessing eligibility criteria's impact on patient count and safety.

J Biomed Inform. 2022 Mar;127:104032. doi: 10.1016/j.jbi.2022.104032. Epub 2022 Feb 18.

Health Natural Language Processing: Methodology Development and Applications.

JMIR Med Inform. 2021 Oct 21;9(10):e23898. doi: 10.2196/23898.

Automated classification of clinical trial eligibility criteria text based on ensemble learning and metric learning.

BMC Med Inform Decis Mak. 2021 Jul 30;21(Suppl 2):129. doi: 10.1186/s12911-021-01492-z.

Medical concept normalization in clinical trials with drug and disease representation learning.

Bioinformatics. 2021 Nov 5;37(21):3856-3864. doi: 10.1093/bioinformatics/btab474.

[Artificial intelligence based Chinese clinical trials eligibility criteria classification].

Sheng Wu Yi Xue Gong Cheng Xue Za Zhi. 2021 Feb 25;38(1):105-110. doi: 10.7507/1001-5515.202006035.

Semantic categorization of Chinese eligibility criteria in clinical trials using machine learning methods.

BMC Med Inform Decis Mak. 2021 Apr 15;21(1):128. doi: 10.1186/s12911-021-01487-w.

A knowledge base of clinical trial eligibility criteria.

J Biomed Inform. 2021 May;117:103771. doi: 10.1016/j.jbi.2021.103771. Epub 2021 Apr 1.

Automated Identification of Common Disease-Specific Outcomes for Comparative Effectiveness Research Using ClinicalTrials.gov: Algorithm Development and Validation Study.

JMIR Med Inform. 2021 Feb 8;9(2):e18298. doi: 10.2196/18298.

本文引用的文献

eTACTS: a method for dynamically filtering clinical trial search results.

J Biomed Inform. 2013 Dec;46(6):1060-7. doi: 10.1016/j.jbi.2013.07.014. Epub 2013 Aug 3.

Analysis of eligibility criteria representation in industry-standard clinical trial protocols.

J Biomed Inform. 2013 Oct;46(5):805-13. doi: 10.1016/j.jbi.2013.06.001. Epub 2013 Jun 12.

Feasibility of feature-based indexing, clustering, and search of clinical trials. A case study of breast cancer trials from ClinicalTrials.gov.

Methods Inf Med. 2013;52(5):382-94. doi: 10.3414/ME12-01-0092. Epub 2013 May 13.

Identifying medical terms in patient-authored text: a crowdsourcing-based approach.

J Am Med Inform Assoc. 2013 Nov-Dec;20(6):1120-7. doi: 10.1136/amiajnl-2012-001110. Epub 2013 May 5.

Relationship between autoantibody clustering and clinical subsets in SLE: cluster and association analyses in Hong Kong Chinese.

Rheumatology (Oxford). 2013 Feb;52(2):337-45. doi: 10.1093/rheumatology/kes261. Epub 2012 Oct 4.

ASCOT: a text mining-based web-service for efficient search and assisted creation of clinical trials.

BMC Med Inform Decis Mak. 2012 Apr 30;12 Suppl 1(Suppl 1):S3. doi: 10.1186/1472-6947-12-S1-S3.

EliXR: an approach to eligibility criteria extraction and representation.

J Am Med Inform Assoc. 2011 Dec;18 Suppl 1(Suppl 1):i116-24. doi: 10.1136/amiajnl-2011-000321. Epub 2011 Jul 31.

Conducting behavioral research on Amazon's Mechanical Turk.

Behav Res Methods. 2012 Mar;44(1):1-23. doi: 10.3758/s13428-011-0124-6.

Dynamic categorization of clinical research eligibility criteria by hierarchical clustering.

J Biomed Inform. 2011 Dec;44(6):927-35. doi: 10.1016/j.jbi.2011.06.001. Epub 2011 Jun 12.

Analysis of eligibility criteria complexity in clinical trials.

Summit Transl Bioinform. 2010 Mar 1;2010:46-50.

文献AI研究员

20分钟写一篇综述，助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型，支持多种主流文档格式。

立即体验

对具有相似纳入标准特征的临床试验进行聚类。

Clustering clinical trials with similar eligibility criteria features.

作者信息

机构信息

出版信息

OBJECTIVES

METHODS

RESULTS

CONCLUSIONS

目的

方法

结果

结论

相似文献

引用本文的文献

本文引用的文献

文献AI研究员

用中文搜PubMed

文档翻译

Suppr 超能文献