Your browser doesn't support javascript.
loading
[Assessment of a method for automatic match classification in probabilistic data linkage]. / Avaliação de método para classificação automatizada de pares em relacionamentos probabilísticos de bancos de dados.
Duarte, Daniela de Almeida Pereira; Corrêa, Camila Soares Lima; Fayer, Vívian Assis; Nogueira, Mário Círio; Bustamante-Teixeira, Maria Teresa.
Afiliação
  • Duarte DAP; Universidade Federal de Juiz de Fora, Juiz de Fora, Brasil.
  • Corrêa CSL; Divisão de Saúde, Universidade Federal de Viçosa, Viçosa, Brasil.
  • Fayer VA; Universidade Federal de Juiz de Fora, Juiz de Fora, Brasil.
  • Nogueira MC; Universidade Federal de Juiz de Fora, Juiz de Fora, Brasil.
  • Bustamante-Teixeira MT; Universidade Federal de Juiz de Fora, Juiz de Fora, Brasil.
Cad Saude Publica ; 35(11): e00066419, 2019.
Article em Pt | MEDLINE | ID: mdl-31721900
RESUMO
O objetivo foi testar e avaliar a acurácia de um método para a seleção de escore em relacionamento probabilístico de banco de dados, de forma a viabilizar a automatização da identificação de pares verdadeiros dispensando a etapa de inspeção manual. Estudo de acurácia utilizando dados do Sistema de Informação do Câncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 e 2010. Após o processo de limpeza e padronização, foi realizado o relacionamento probabilístico dos bancos 2009 e 2010 utilizando 16 passos, sendo que cada passo foi inspecionado manualmente para se obter um padrão-ouro. Posteriormente, selecionaram-se amostras que foram inspecionadas e avaliadas para calcular a acurácia do método de seleção dos pares verdadeiros. Todos os passos e amostras com 200 e 300 pares apresentaram alta sensibilidade (recall) > 0,97, alto valor preditivo positivo (precision) > 0,95 e altas acurácia (> 0,97), medida F (> 0,96) e área sob a curva precision-recall (> 0,98). A amostra com 100 pares evidenciou altos valores para essas medidas, porém com escores mais baixos. Dos 16 passos avaliados, o uso de apenas três de forma combinada foi suficiente para identificar 99,24% dos pares verdadeiros no banco total. O método proposto permite automatizar o relacionamento das bases de dados, mantendo a acurácia do método. Facilita a utilização de relacionamento probabilístico no âmbito dos serviços de saúde, especialmente para a vigilância e gestão em saúde.
RESUMEN
El objectivo fue robar y evaluar la exactitud de un método para la selección de una puntuación, en la relación probabilística de bancos de datos, de forma que sea viable la automatización de la identificación de pares verdaderos, eximiendo la etapa de revisión manual. Estudio de precisión, utilizando datos del Sistema de Información del Cáncer de Mama (SISMAMA) de Minas Gerais, Brasil, de 2009 y 2010. Tras el proceso de limpieza y estandarización, se realizó la relación probabilística de los bancos 2009 y 2010, utilizando 16 pasos, donde cada paso se revisó manualmente para obtener un patrón-oro. Posteriormente, se seleccionaron muestras que fueron revisadas y evaluadas para calcular la precisión del método de selección de los pares verdaderos. Todos los pasos y muestras con 200 y 300 pares presentaron una alta sensibilidad (recall) > 0,97, un alto valor predictivo positivo (precision) > 0,95 y exactitud alta (> 0,97), medida F (> 0,96) y el área bajo la curva precision-recall (> 0,98). La muestra con 100 pares evidenció altos valores para estas medidas, aunque con puntuaciones más bajas. De los 16 pasos evaluados, el uso de solo tres de forma combinada fueron suficientes para identificar 99,24% de los pares verdaderos en el banco total. El método propuesto permite automatizar la relación de las bases de datos, manteniendo la precisión del método. Facilita la utilización de la relación probabilística en el ámbito de los servicios de salud, especialmente para vigilancia y gestión en salud.
Assuntos

Texto completo: 1 Base de dados: MEDLINE Assunto principal: Registro Médico Coordenado / Bases de Dados Factuais / Armazenamento e Recuperação da Informação Idioma: Pt Ano de publicação: 2019 Tipo de documento: Article

Texto completo: 1 Base de dados: MEDLINE Assunto principal: Registro Médico Coordenado / Bases de Dados Factuais / Armazenamento e Recuperação da Informação Idioma: Pt Ano de publicação: 2019 Tipo de documento: Article