Oliveira Gisele Pinto de, Bierrenbach Ana Luiza de Souza, Camargo Kenneth Rochel de, Coeli Cláudia Medina, Pinheiro Rejane Sobrino
Programa de Pós-Graduação em Saúde Coletiva. Instituto de Estudos em Saúde Coletiva. Universidade Federal do Rio de Janeiro. Rio de Janeiro, RJ, Brasil.
Instituto de Ensino e Pesquisa. Hospital Sírio-Libanês. São Paulo, SP, Brasil.
Rev Saude Publica. 2016 Aug 22;50:49. doi: 10.1590/S1518-8787.2016050006327.
To analyze the accuracy of deterministic and probabilistic record linkage to identify TB duplicate records, as well as the characteristics of discordant pairs.
The study analyzed all TB records from 2009 to 2011 in the state of Rio de Janeiro. A deterministic record linkage algorithm was developed using a set of 70 rules, based on the combination of fragments of the key variables with or without modification (Soundex or substring). Each rule was formed by three or more fragments. The probabilistic approach required a cutoff point for the score, above which the links would be automatically classified as belonging to the same individual. The cutoff point was obtained by linkage of the Notifiable Diseases Information System - Tuberculosis database with itself, subsequent manual review and ROC curves and precision-recall. Sensitivity and specificity for accurate analysis were calculated.
Accuracy ranged from 87.2% to 95.2% for sensitivity and 99.8% to 99.9% for specificity for probabilistic and deterministic record linkage, respectively. The occurrence of missing values for the key variables and the low percentage of similarity measure for name and date of birth were mainly responsible for the failure to identify records of the same individual with the techniques used.
The two techniques showed a high level of correlation for pair classification. Although deterministic linkage identified more duplicate records than probabilistic linkage, the latter retrieved records not identified by the former. User need and experience should be considered when choosing the best technique to be used.
Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes.
MÉTODOS: Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação - Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia.
A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas.
CONCLUSÕES: As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.
分析确定性和概率性记录链接识别结核病重复记录的准确性以及不一致配对的特征。
该研究分析了里约热内卢州2009年至2011年的所有结核病记录。基于关键变量片段的组合(有或没有修改,如语音相似性编码或子串),使用一组70条规则开发了一种确定性记录链接算法。每条规则由三个或更多片段组成。概率性方法需要一个分数截止点,高于该截止点的链接将被自动分类为属于同一个体。通过将法定传染病信息系统 - 结核病数据库与其自身进行链接、随后的人工审核以及ROC曲线和精确召回率来获得截止点。计算准确分析的敏感性和特异性。
概率性和确定性记录链接的敏感性准确率分别为87.2%至95.2%,特异性准确率分别为99.8%至99.9%。关键变量缺失值的出现以及姓名和出生日期相似性度量的低百分比是导致使用这些技术未能识别同一个体记录的主要原因。
这两种技术在配对分类方面显示出高度相关性。尽管确定性链接识别出的重复记录比概率性链接更多,但后者找回了前者未识别的记录。在选择最佳使用技术时应考虑用户需求和经验。
分析确定性和概率性技术识别结核病重复记录的准确性以及不一致配对的特征。
分析了里约热内卢州2009年至2011年期间的所有结核病记录。开发了确定性关联算法,使用一组70条规则,基于关键变量片段的组合,有或没有修改(语音相似性编码或子串)。每条规则由三个或更多片段组成。对于概率性方法,需要为分数设定一个截止点,高于该截止点的链接将被自动分类为属于同一个体。通过将法定传染病信息系统 - 结核病数据库与其自身进行关联、随后的人工审核以及ROC曲线和精确召回率来获得截止点。计算准确性分析的敏感性和特异性。
概率性技术的敏感性准确率为87.2%至95.2%,确定性技术的敏感性准确率为99.8%至99.9%。关键变量存在缺失值以及姓名和出生日期相似性度量的低百分比是使用这些技术未能识别同一个体记录的主要原因。
这两种技术在分类为配对方面具有高度一致性。尽管确定性技术识别出的重复记录比概率性技术多,但概率性技术找回了确定性技术未识别的记录。在选择要使用的技术时应考虑用户需求和经验。