Your browser doesn't support javascript.

Portal de Pesquisa da BVS

Informação e Conhecimento para a Saúde

Home > Pesquisa > ()
XML
Imprimir Exportar

Formato de exportação:

Exportar

Email
Adicionar mais destinatários
| |

Accuracy of probabilistic and deterministic record linkage: the case of tuberculosis / Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose

Oliveira, Gisele Pinto de; Bierrenbach, Ana Luiza de Souza; Camargo Júnior, Kenneth Rochel de; Coeli, Cláudia Medina; Pinheiro, Rejane Sobrino.
Artigo em Inglês | LILACS | ID: biblio-962198
RESUMO OBJETIVO Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes. MÉTODOS Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação - Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia. RESULTADOS A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas. CONCLUSÕES As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.
Biblioteca responsável: BR1.1