Potential limitations in COVID-19 machine learning due to data source variability: A case study in the nCov2019 dataset.

Sáez, Carlos; Romero, Nekane; Conejero, J Alberto; García-Gómez, Juan M

Sáez, Carlos; Romero, Nekane; Conejero, J Alberto; García-Gómez, Juan M.

Afiliação

Sáez C; Biomedical Data Science Lab, Instituto Universitario de Tecnologías de la Información y Comunicaciones, Universitat Politècnica de València, Camino de Vera s/n, Valencia 46022, España.
Romero N; Biomedical Data Science Lab, Instituto Universitario de Tecnologías de la Información y Comunicaciones, Universitat Politècnica de València, Camino de Vera s/n, Valencia 46022, España.
Conejero JA; Instituto Universitario de Matemática Pura y Aplicada, Universitat Politécnica de València, Valencia, Spain.
García-Gómez JM; Biomedical Data Science Lab, Instituto Universitario de Tecnologías de la Información y Comunicaciones, Universitat Politècnica de València, Camino de Vera s/n, Valencia 46022, España.

J Am Med Inform Assoc ; 28(2): 360-364, 2021 02 15.

Article em En | MEDLINE | ID: mdl-33027509

ABSTRACT

ABSTRACT

OBJECTIVE:

The lack of representative coronavirus disease 2019 (COVID-19) data is a bottleneck for reliable and generalizable machine learning. Data sharing is insufficient without data quality, in which source variability plays an important role. We showcase and discuss potential biases from data source variability for COVID-19 machine learning. MATERIALS AND

METHODS:

We used the publicly available nCov2019 dataset, including patient-level data from several countries. We aimed to the discovery and classification of severity subgroups using symptoms and comorbidities.

RESULTS:

Cases from the 2 countries with the highest prevalence were divided into separate subgroups with distinct severity manifestations. This variability can reduce the representativeness of training data with respect the model target populations and increase model complexity at risk of overfitting.

CONCLUSIONS:

Data source variability is a potential contributor to bias in distributed research networks. We call for systematic assessment and reporting of data source variability and data quality in COVID-19 data sharing, as key information for reliable and generalizable machine learning.

Assuntos

COVID-19; Confiabilidade dos Dados; Conjuntos de Dados como Assunto; Disseminação de Informação; Aprendizado de Máquina; Adulto; Idoso; COVID-19/classificação; Redes de Comunicação de Computadores; Conjuntos de Dados como Assunto/normas; Feminino; Humanos; Masculino; Pessoa de Meia-Idade; Gravidade do Paciente

Palavras-chave

COVID-19; biases; data quality; data sharing; dataset shift; distributed research networks; heterogeneity; machine learning; multi-site data; variability

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Base de dados: MEDLINE Assunto principal: Disseminação de Informação / Conjuntos de Dados como Assunto / Confiabilidade dos Dados / Aprendizado de Máquina / COVID-19 Idioma: En Ano de publicação: 2021 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google