LEAP: Using machine learning to support variant classification in a clinical setting.

Lai, Carmen; Zimmer, Anjali D; O'Connor, Robert; Kim, Serra; Chan, Ray; van den Akker, Jeroen; Zhou, Alicia Y; Topper, Scott; Mishne, Gilad

Lai, Carmen; Zimmer, Anjali D; O'Connor, Robert; Kim, Serra; Chan, Ray; van den Akker, Jeroen; Zhou, Alicia Y; Topper, Scott; Mishne, Gilad.

Afiliação

Lai C; Data Science, Color Genomics, Burlingame, California.
Zimmer AD; Scientific Affairs, Color Genomics, Burlingame, California.
O'Connor R; Variant Science, Color Genomics, Burlingame, California.
Kim S; Variant Science, Color Genomics, Burlingame, California.
Chan R; Variant Science, Color Genomics, Burlingame, California.
van den Akker J; Bioinformatics, Color Genomics, Burlingame, California.
Zhou AY; Scientific Affairs, Color Genomics, Burlingame, California.
Topper S; Clinical Genomics, Color Genomics, Burlingame, California.
Mishne G; Data Science, Color Genomics, Burlingame, California.

Hum Mutat ; 41(6): 1079-1090, 2020 06.

Article em En | MEDLINE | ID: mdl-32176384

RESUMO

Advances in genome sequencing have led to a tremendous increase in the discovery of novel missense variants, but evidence for determining clinical significance can be limited or conflicting. Here, we present Learning from Evidence to Assess Pathogenicity (LEAP), a machine learning model that utilizes a variety of feature categories to classify variants, and achieves high performance in multiple genes and different health conditions. Feature categories include functional predictions, splice predictions, population frequencies, conservation scores, protein domain data, and clinical observation data such as personal and family history and covariant information. L2-regularized logistic regression and random forest classification models were trained on missense variants detected and classified during the course of routine clinical testing at Color Genomics (14,226 variants from 24 cancer-related genes and 5,398 variants from 30 cardiovascular-related genes). Using 10-fold cross-validated predictions, the logistic regression model achieved an area under the receiver operating characteristic curve (AUROC) of 97.8% (cancer) and 98.8% (cardiovascular), while the random forest model achieved 98.3% (cancer) and 98.6% (cardiovascular). We demonstrate generalizability to different genes by validating predictions on genes withheld from training (96.8% AUROC). High accuracy and broad applicability make LEAP effective in the clinical setting as a high-throughput quality control layer.

Assuntos

Genômica/métodos; Aprendizado de Máquina; Modelos Genéticos; Mutação de Sentido Incorreto; Área Sob a Curva; Doenças Cardiovasculares/genética; Humanos; Modelos Logísticos; Modelos Estatísticos; Neoplasias/genética; Curva ROC

Palavras-chave

clinical genetics; genetic testing; machine learning; variant classification

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Assunto principal: Mutação de Sentido Incorreto / Genômica / Aprendizado de Máquina / Modelos Genéticos Tipo de estudo: Prognostic_studies / Risk_factors_studies Limite: Humans Idioma: En Revista: Hum Mutat Assunto da revista: GENETICA MEDICA Ano de publicação: 2020 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google