Your browser doesn't support javascript.
loading
Comparison of machine-learning algorithms to build a predictive model for detecting undiagnosed diabetes - ELSA-Brasil: accuracy study / Comparação de algoritmos de aprendizagem de máquina para construir um modelo preditivo para detecção de diabetes não diagnosticada - ELSA-Brasil: estudo de acurácia
Olivera, André Rodrigues; Roesler, Valter; Iochpe, Cirano; Schmidt, Maria Inês; Vigo, Álvaro; Barreto, Sandhi Maria; Duncan, Bruce Bartholow.
Afiliación
  • Olivera, André Rodrigues; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Roesler, Valter; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Iochpe, Cirano; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Schmidt, Maria Inês; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Vigo, Álvaro; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Barreto, Sandhi Maria; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
  • Duncan, Bruce Bartholow; Universidade Federal do Rio Grande do Sul. Porto Alegre. BR
São Paulo med. j ; São Paulo med. j;135(3): 234-246, May-June 2017. tab, graf
Article en En | LILACS | ID: biblio-904082
Biblioteca responsable: BR1.1
ABSTRACT
ABSTRACT CONTEXT AND

OBJECTIVE:

Type 2 diabetes is a chronic disease associated with a wide range of serious health complications that have a major impact on overall health. The aims here were to develop and validate predictive models for detecting undiagnosed diabetes using data from the Longitudinal Study of Adult Health (ELSA-Brasil) and to compare the performance of different machine-learning algorithms in this task. DESIGN AND

SETTING:

Comparison of machine-learning algorithms to develop predictive models using data from ELSA-Brasil.

METHODS:

After selecting a subset of 27 candidate variables from the literature, models were built and validated in four sequential

steps:

(i) parameter tuning with tenfold cross-validation, repeated three times; (ii) automatic variable selection using forward selection, a wrapper strategy with four different machine-learning algorithms and tenfold cross-validation (repeated three times), to evaluate each subset of variables; (iii) error estimation of model parameters with tenfold cross-validation, repeated ten times; and (iv) generalization testing on an independent dataset. The models were created with the following machine-learning algorithms logistic regression, artificial neural network, naïve Bayes, K-nearest neighbor and random forest.

RESULTS:

The best models were created using artificial neural networks and logistic regression. ­These achieved mean areas under the curve of, respectively, 75.24% and 74.98% in the error estimation step and 74.17% and 74.41% in the generalization testing step.

CONCLUSION:

Most of the predictive models produced similar results, and demonstrated the feasibility of identifying individuals with highest probability of having undiagnosed diabetes, through easily-obtained clinical data.
RESUMO
RESUMO CONTEXTO E

OBJETIVO:

Diabetes tipo 2 é uma doença crônica associada a graves complicações de saúde, causando grande impacto na saúde global. O objetivo foi desenvolver e validar modelos preditivos para detectar diabetes não diagnosticada utilizando dados do Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) e comparar o desempenho de diferentes algoritmos de aprendizagem de máquina. TIPO DE ESTUDO E LOCAL Comparação de algoritmos de aprendizagem de máquina para o desenvolvimento de modelos preditivos utilizando dados do ELSA-Brasil.

MÉTODOS:

Após selecionar 27 variáveis candidatas a partir da literatura, modelos foram construídos e validados em 4 etapas sequenciais (i) afinação de parâmetros com validação cruzada (10-fold cross-validation); (ii) seleção automática de variáveis utilizando seleção progressiva, estratégia "wrapper" com quatro algoritmos de aprendizagem de máquina distintos e validação cruzada para avaliar cada subconjunto de variáveis; (iii) estimação de erros dos parâmetros dos modelos com validação cruzada; e (iv) teste de generalização em um conjunto de dados independente. Os modelos foram criados com os seguintes algoritmos de aprendizagem de máquina regressão logística, redes neurais artificiais, naïve Bayes, K vizinhos mais próximos e floresta aleatória.

RESULTADOS:

Os melhores modelos foram criados utilizando redes neurais artificiais e regressão logística alcançando, respectivamente, 75,24% e 74,98% de média de área sob a curva na etapa de estimação de erros e 74,17% e 74,41% na etapa de teste de generalização.

CONCLUSÃO:

A maioria dos modelos preditivos produziu resultados semelhantes e demonstrou a viabilidade de identificar aqueles com maior probabilidade de ter diabetes não diagnosticada com dados clínicos facilmente obtidos.
Asunto(s)
Palabras clave

Texto completo: 1 Índice: LILACS Asunto principal: Algoritmos / Diabetes Mellitus Tipo 2 / Aprendizaje Automático Supervisado Tipo de estudio: Clinical_trials / Diagnostic_studies / Observational_studies / Prognostic_studies / Risk_factors_studies Límite: Adult / Aged / Female / Humans / Male País/Región como asunto: America do sul / Brasil Idioma: En Revista: São Paulo med. j Asunto de la revista: Cirurgia Geral / Ciˆncia / Ginecologia / MEDICINA / Medicina Interna / Obstetr¡cia / Pediatria / Sa£de Mental / Sa£de P£blica Año: 2017 Tipo del documento: Article

Texto completo: 1 Índice: LILACS Asunto principal: Algoritmos / Diabetes Mellitus Tipo 2 / Aprendizaje Automático Supervisado Tipo de estudio: Clinical_trials / Diagnostic_studies / Observational_studies / Prognostic_studies / Risk_factors_studies Límite: Adult / Aged / Female / Humans / Male País/Región como asunto: America do sul / Brasil Idioma: En Revista: São Paulo med. j Asunto de la revista: Cirurgia Geral / Ciˆncia / Ginecologia / MEDICINA / Medicina Interna / Obstetr¡cia / Pediatria / Sa£de Mental / Sa£de P£blica Año: 2017 Tipo del documento: Article