• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

高效的记录链接顺序和并行算法。

Efficient sequential and parallel algorithms for record linkage.

机构信息

Department of Computer Science and Engineering, University of Connecticut, Storrs, Connecticut, USA.

出版信息

J Am Med Inform Assoc. 2014 Mar-Apr;21(2):252-62. doi: 10.1136/amiajnl-2013-002034. Epub 2013 Oct 23.

DOI:10.1136/amiajnl-2013-002034
PMID:24154837
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3932463/
Abstract

BACKGROUND AND OBJECTIVE

Integrating data from multiple sources is a crucial and challenging problem. Even though there exist numerous algorithms for record linkage or deduplication, they suffer from either large time needs or restrictions on the number of datasets that they can integrate. In this paper we report efficient sequential and parallel algorithms for record linkage which handle any number of datasets and outperform previous algorithms.

METHODS

Our algorithms employ hierarchical clustering algorithms as the basis. A key idea that we use is radix sorting on certain attributes to eliminate identical records before any further processing. Another novel idea is to form a graph that links similar records and find the connected components.

RESULTS

Our sequential and parallel algorithms have been tested on a real dataset of 1,083,878 records and synthetic datasets ranging in size from 50,000 to 9,000,000 records. Our sequential algorithm runs at least two times faster, for any dataset, than the previous best-known algorithm, the two-phase algorithm using faster computation of the edit distance (TPA (FCED)). The speedups obtained by our parallel algorithm are almost linear. For example, we get a speedup of 7.5 with 8 cores (residing in a single node), 14.1 with 16 cores (residing in two nodes), and 26.4 with 32 cores (residing in four nodes).

CONCLUSIONS

We have compared the performance of our sequential algorithm with TPA (FCED) and found that our algorithm outperforms the previous one. The accuracy is the same as that of this previous best-known algorithm.

摘要

背景与目标

整合来自多个来源的数据是一个至关重要且具有挑战性的问题。尽管存在许多用于记录链接或去重的算法,但它们要么需要大量时间,要么受到它们可以整合的数据集数量的限制。在本文中,我们报告了用于记录链接的高效顺序和并行算法,这些算法可以处理任意数量的数据集,并优于以前的算法。

方法

我们的算法采用层次聚类算法作为基础。我们使用的一个关键思想是对某些属性进行基数排序,以在进行任何进一步处理之前消除相同的记录。另一个新颖的想法是形成一个链接相似记录并找到连通分量的图。

结果

我们的顺序和并行算法已经在一个包含 1,083,878 条记录的真实数据集和大小从 50,000 到 9,000,000 条记录的合成数据集上进行了测试。对于任何数据集,我们的顺序算法的运行速度至少比以前最快的算法(使用更快的编辑距离计算的两阶段算法(TPA (FCED))快两倍。我们的并行算法获得的加速几乎是线性的。例如,我们使用 8 核(驻留在单个节点中)获得 7.5 的加速,使用 16 核(驻留在两个节点中)获得 14.1 的加速,使用 32 核(驻留在四个节点中)获得 26.4 的加速。

结论

我们比较了我们的顺序算法与 TPA (FCED) 的性能,发现我们的算法优于以前的算法。准确性与以前最快的算法相同。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/f6e14ace49f3/amiajnl-2013-002034f08.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/993c390d2fb0/amiajnl-2013-002034f01.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/49da7bb7a276/amiajnl-2013-002034f02.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/c4bb2ca7699c/amiajnl-2013-002034f03.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/dab6c4544f66/amiajnl-2013-002034f04.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/d7c5840a634b/amiajnl-2013-002034f05.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/5f9115937c7f/amiajnl-2013-002034f06.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/fc95a9e562a0/amiajnl-2013-002034f07.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/f6e14ace49f3/amiajnl-2013-002034f08.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/993c390d2fb0/amiajnl-2013-002034f01.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/49da7bb7a276/amiajnl-2013-002034f02.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/c4bb2ca7699c/amiajnl-2013-002034f03.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/dab6c4544f66/amiajnl-2013-002034f04.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/d7c5840a634b/amiajnl-2013-002034f05.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/5f9115937c7f/amiajnl-2013-002034f06.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/fc95a9e562a0/amiajnl-2013-002034f07.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/54ae/3932463/f6e14ace49f3/amiajnl-2013-002034f08.jpg

相似文献

1
Efficient sequential and parallel algorithms for record linkage.高效的记录链接顺序和并行算法。
J Am Med Inform Assoc. 2014 Mar-Apr;21(2):252-62. doi: 10.1136/amiajnl-2013-002034. Epub 2013 Oct 23.
2
Efficient Record Linkage Algorithms Using Complete Linkage Clustering.使用完全连锁聚类的高效记录链接算法。
PLoS One. 2016 Apr 28;11(4):e0154446. doi: 10.1371/journal.pone.0154446. eCollection 2016.
3
FIRLA: a Fast Incremental Record Linkage Algorithm.FIRLA:一种快速增量记录链接算法。
J Biomed Inform. 2022 Jun;130:104094. doi: 10.1016/j.jbi.2022.104094. Epub 2022 May 10.
4
Efficient algorithms for fast integration on large data sets from multiple sources.从多个来源快速集成大型数据集的高效算法。
BMC Med Inform Decis Mak. 2012 Jun 28;12:59. doi: 10.1186/1472-6947-12-59.
5
CIDACS-RL: a novel indexing search and scoring-based record linkage system for huge datasets with high accuracy and scalability.CIDACS-RL:一种基于索引搜索和评分的新型记录链接系统,用于处理具有高精度和可扩展性的大型数据集。
BMC Med Inform Decis Mak. 2020 Nov 9;20(1):289. doi: 10.1186/s12911-020-01285-w.
6
RLT-S: A Web System for Record Linkage.RLT-S:一个用于记录链接的网络系统。
PLoS One. 2015 May 5;10(5):e0124449. doi: 10.1371/journal.pone.0124449. eCollection 2015.
7
An efficient record linkage scheme using graphical analysis for identifier error detection.一种使用图形分析的高效记录链接方案,用于标识符错误检测。
BMC Med Inform Decis Mak. 2011 Feb 1;11:7. doi: 10.1186/1472-6947-11-7.
8
Analysis of identifier performance using a deterministic linkage algorithm.使用确定性链接算法分析标识符性能。
Proc AMIA Symp. 2002:305-9.
9
Comparing record linkage software programs and algorithms using real-world data.使用真实世界的数据比较记录链接软件程序和算法。
PLoS One. 2019 Sep 24;14(9):e0221459. doi: 10.1371/journal.pone.0221459. eCollection 2019.
10
A new computationally efficient algorithm for record linkage with field dependency and missing data imputation.一种新的具有字段依赖性和缺失数据插补功能的计算效率高的记录链接算法。
Int J Med Inform. 2018 Jan;109:70-75. doi: 10.1016/j.ijmedinf.2017.10.021. Epub 2017 Nov 6.

引用本文的文献

1
A fast privacy-preserving patient record linkage of time series data.一种快速的隐私保护的时间序列数据患者记录链接方法。
Sci Rep. 2023 Feb 25;13(1):3292. doi: 10.1038/s41598-023-29132-8.
2
Synthetic data in health care: A narrative review.医疗保健中的合成数据:一篇叙述性综述。
PLOS Digit Health. 2023 Jan 6;2(1):e0000082. doi: 10.1371/journal.pdig.0000082. eCollection 2023 Jan.
3
On the Accuracy and Scalability of Probabilistic Data Linkage Over the Brazilian 114 Million Cohort.基于巴西 1.14 亿队列的概率数据链接的准确性和可扩展性研究

本文引用的文献

1
Efficient algorithms for fast integration on large data sets from multiple sources.从多个来源快速集成大型数据集的高效算法。
BMC Med Inform Decis Mak. 2012 Jun 28;12:59. doi: 10.1186/1472-6947-12-59.
2
Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources.利用DAVID生物信息学资源对大型基因列表进行系统和综合分析。
Nat Protoc. 2009;4(1):44-57. doi: 10.1038/nprot.2008.211.
3
The use and reporting of cluster analysis in health psychology: a review.健康心理学中聚类分析的应用与报告:一项综述
IEEE J Biomed Health Inform. 2018 Mar;22(2):346-353. doi: 10.1109/JBHI.2018.2796941.
4
Efficient Record Linkage Algorithms Using Complete Linkage Clustering.使用完全连锁聚类的高效记录链接算法。
PLoS One. 2016 Apr 28;11(4):e0154446. doi: 10.1371/journal.pone.0154446. eCollection 2016.
5
RLT-S: A Web System for Record Linkage.RLT-S:一个用于记录链接的网络系统。
PLoS One. 2015 May 5;10(5):e0124449. doi: 10.1371/journal.pone.0124449. eCollection 2015.
Br J Health Psychol. 2005 Sep;10(Pt 3):329-58. doi: 10.1348/135910705X25697.
4
A record linkage protocol for a diabetes registry at ethnically diverse community health centers.一个针对种族多元化社区健康中心的糖尿病登记处的记录链接协议。
J Am Med Inform Assoc. 2005 May-Jun;12(3):331-7. doi: 10.1197/jamia.M1696. Epub 2005 Jan 31.
5
Practical introduction to record linkage for injury research.伤害研究中记录链接的实践介绍。
Inj Prev. 2004 Jun;10(3):186-91. doi: 10.1136/ip.2003.004580.
6
Identification and functional clustering of global gene expression differences between human age-related cataract and clear lenses.人类年龄相关性白内障与透明晶状体之间全局基因表达差异的鉴定及功能聚类
Mol Vis. 2003 Oct 7;9:515-37.
7
DAVID: Database for Annotation, Visualization, and Integrated Discovery.DAVID:注释、可视化与整合发现数据库。
Genome Biol. 2003;4(5):P3. Epub 2003 Apr 3.
8
An empirical comparison of record linkage procedures.记录链接程序的实证比较。
Stat Med. 2002 May 30;21(10):1485-96. doi: 10.1002/sim.1147.
9
Record linkage of health care insurance claims.医疗保险理赔记录链接。
J Am Med Inform Assoc. 2001 May-Jun;8(3):281-8. doi: 10.1136/jamia.2001.0080281.
10
Exploring expression data: identification and analysis of coexpressed genes.探索表达数据:共表达基因的识别与分析。
Genome Res. 1999 Nov;9(11):1106-15. doi: 10.1101/gr.9.11.1106.