Suppr超能文献

概率性和确定性记录链接的准确性:以结核病为例。

Accuracy of probabilistic and deterministic record linkage: the case of tuberculosis.

作者信息

Oliveira Gisele Pinto de, Bierrenbach Ana Luiza de Souza, Camargo Kenneth Rochel de, Coeli Cláudia Medina, Pinheiro Rejane Sobrino

机构信息

Programa de Pós-Graduação em Saúde Coletiva. Instituto de Estudos em Saúde Coletiva. Universidade Federal do Rio de Janeiro. Rio de Janeiro, RJ, Brasil.

Instituto de Ensino e Pesquisa. Hospital Sírio-Libanês. São Paulo, SP, Brasil.

出版信息

Rev Saude Publica. 2016 Aug 22;50:49. doi: 10.1590/S1518-8787.2016050006327.

Abstract

OBJECTIVE

To analyze the accuracy of deterministic and probabilistic record linkage to identify TB duplicate records, as well as the characteristics of discordant pairs.

METHODS

The study analyzed all TB records from 2009 to 2011 in the state of Rio de Janeiro. A deterministic record linkage algorithm was developed using a set of 70 rules, based on the combination of fragments of the key variables with or without modification (Soundex or substring). Each rule was formed by three or more fragments. The probabilistic approach required a cutoff point for the score, above which the links would be automatically classified as belonging to the same individual. The cutoff point was obtained by linkage of the Notifiable Diseases Information System - Tuberculosis database with itself, subsequent manual review and ROC curves and precision-recall. Sensitivity and specificity for accurate analysis were calculated.

RESULTS

Accuracy ranged from 87.2% to 95.2% for sensitivity and 99.8% to 99.9% for specificity for probabilistic and deterministic record linkage, respectively. The occurrence of missing values for the key variables and the low percentage of similarity measure for name and date of birth were mainly responsible for the failure to identify records of the same individual with the techniques used.

CONCLUSIONS

The two techniques showed a high level of correlation for pair classification. Although deterministic linkage identified more duplicate records than probabilistic linkage, the latter retrieved records not identified by the former. User need and experience should be considered when choosing the best technique to be used.

OBJETIVO

Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes.

MÉTODOS: Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação - Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia.

RESULTADOS

A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas.

CONCLUSÕES: As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.

摘要

目的

分析确定性和概率性记录链接识别结核病重复记录的准确性以及不一致配对的特征。

方法

该研究分析了里约热内卢州2009年至2011年的所有结核病记录。基于关键变量片段的组合(有或没有修改,如语音相似性编码或子串),使用一组70条规则开发了一种确定性记录链接算法。每条规则由三个或更多片段组成。概率性方法需要一个分数截止点,高于该截止点的链接将被自动分类为属于同一个体。通过将法定传染病信息系统 - 结核病数据库与其自身进行链接、随后的人工审核以及ROC曲线和精确召回率来获得截止点。计算准确分析的敏感性和特异性。

结果

概率性和确定性记录链接的敏感性准确率分别为87.2%至95.2%,特异性准确率分别为99.8%至99.9%。关键变量缺失值的出现以及姓名和出生日期相似性度量的低百分比是导致使用这些技术未能识别同一个体记录的主要原因。

结论

这两种技术在配对分类方面显示出高度相关性。尽管确定性链接识别出的重复记录比概率性链接更多,但后者找回了前者未识别的记录。在选择最佳使用技术时应考虑用户需求和经验。

目标

分析确定性和概率性技术识别结核病重复记录的准确性以及不一致配对的特征。

方法

分析了里约热内卢州2009年至2011年期间的所有结核病记录。开发了确定性关联算法,使用一组70条规则,基于关键变量片段的组合,有或没有修改(语音相似性编码或子串)。每条规则由三个或更多片段组成。对于概率性方法,需要为分数设定一个截止点,高于该截止点的链接将被自动分类为属于同一个体。通过将法定传染病信息系统 - 结核病数据库与其自身进行关联、随后的人工审核以及ROC曲线和精确召回率来获得截止点。计算准确性分析的敏感性和特异性。

结果

概率性技术的敏感性准确率为87.2%至95.2%,确定性技术的敏感性准确率为99.8%至99.9%。关键变量存在缺失值以及姓名和出生日期相似性度量的低百分比是使用这些技术未能识别同一个体记录的主要原因。

结论

这两种技术在分类为配对方面具有高度一致性。尽管确定性技术识别出的重复记录比概率性技术多,但概率性技术找回了确定性技术未识别的记录。在选择要使用的技术时应考虑用户需求和经验。

相似文献

1
Accuracy of probabilistic and deterministic record linkage: the case of tuberculosis.
Rev Saude Publica. 2016 Aug 22;50:49. doi: 10.1590/S1518-8787.2016050006327.
2
Risk factors associated with multidrug-resistant tuberculosis in Espírito Santo, Brazil.
Rev Saude Publica. 2017 Apr 27;51(0):41. doi: 10.1590/S1518-8787.2017051006688.
3
Clinical-Functional Vulnerability Index-20 (IVCF-20): rapid recognition of frail older adults.
Rev Saude Publica. 2016 Dec 22;50:81. doi: 10.1590/S1518-8787.2016050006963.
4
Epidemiological surveillance of tegumentary leishmaniasis: local territorial analysis.
Rev Saude Publica. 2017 Jun 26;51:51. doi: 10.1590/S1518-8787.2017051006614.
5
Contribution of Oswaldo Paulo Forattini to public health: analysis of scientific production.
Rev Saude Publica. 2016 Dec 22;50:73. doi: 10.1590/S1518-8787.2016050000217.
6
Access to and use of high blood pressure medications in Brazil.
Rev Saude Publica. 2016 Dec;50(suppl 2):8s. doi: 10.1590/S1518-8787.2016050006154.
7
8
Blood Pressure Treatment Adherence and Control after Participation in the ReHOT.
Arq Bras Cardiol. 2016 Nov;107(5):437-445. doi: 10.5935/abc.20160165.
9
Performance of the dipstick screening test as a predictor of negative urine culture.
Einstein (Sao Paulo). 2017 Jan-Mar;15(1):34-39. doi: 10.1590/S1679-45082017AO3936.
10
Analysis of the spatial distribution of dengue cases in the city of Rio de Janeiro, 2011 and 2012.
Rev Saude Publica. 2017 Aug 17;51:79. doi: 10.11606/S1518-8787.2017051006239.

引用本文的文献

4
Record Linkage for Malaria Deaths Data Recovery and Surveillance in Brazil.
Trop Med Infect Dis. 2023 Dec 14;8(12):519. doi: 10.3390/tropicalmed8120519.
5
High Tuberculosis Density Incidence Rate in Matched Unrelated Allogeneic Stem Cell Transplantation Recipients in the State of São Paulo, Brazil.
Mediterr J Hematol Infect Dis. 2023 Jul 1;15(1):e2023037. doi: 10.4084/MJHID.2023.037. eCollection 2023.
7
Analysis of the completeness of self-harm and suicide records in Pernambuco, Brazil, 2014-2016.
BMC Public Health. 2022 Jun 9;22(1):1154. doi: 10.1186/s12889-022-13455-8.
10
Bayesian evidence synthesis to estimate subnational TB incidence: An application in Brazil.
Epidemics. 2021 Jun;35:100443. doi: 10.1016/j.epidem.2021.100443. Epub 2021 Feb 20.

本文引用的文献

1
Going open source: some lessons learned from the development of OpenRecLink.
Cad Saude Publica. 2015 Feb;31(2):257-63. doi: 10.1590/0102-311x00041214.
2
[Improved quality of tuberculosis data using record linkage.].
Cad Saude Publica. 2014 Nov;30(11):2459-2470. doi: 10.1590/0102-311x00116313.
4
Accuracy of probabilistic record linkage in the assessment of high-complexity cardiology procedures.
Rev Saude Publica. 2011 Apr;45(2):269-75. doi: 10.1590/s0034-89102011005000012. Epub 2011 Feb 25.
7
Accuracy of probabilistic record linkage applied to health databases: systematic review.
Rev Saude Publica. 2009 Oct;43(5):875-82. doi: 10.1590/s0034-89102009005000060. Epub 2009 Sep 25.
9
Accuracy of public health data linkages.
Matern Child Health J. 2009 Jul;13(4):531-8. doi: 10.1007/s10995-008-0377-6. Epub 2008 Jun 24.

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验