On the cross-population generalizability of gene expression prediction models.

Keys, Kevin L; Mak, Angel C Y; White, Marquitta J; Eckalbar, Walter L; Dahl, Andrew W; Mefford, Joel; Mikhaylova, Anna V; Contreras, María G; Elhawary, Jennifer R; Eng, Celeste; Hu, Donglei; Huntsman, Scott; Oh, Sam S; Salazar, Sandra; Lenoir, Michael A; Ye, Jimmie C; Thornton, Timothy A; Zaitlen, Noah; Burchard, Esteban G; Gignoux, Christopher R

Keys, Kevin L; Mak, Angel C Y; White, Marquitta J; Eckalbar, Walter L; Dahl, Andrew W; Mefford, Joel; Mikhaylova, Anna V; Contreras, María G; Elhawary, Jennifer R; Eng, Celeste; Hu, Donglei; Huntsman, Scott; Oh, Sam S; Salazar, Sandra; Lenoir, Michael A; Ye, Jimmie C; Thornton, Timothy A; Zaitlen, Noah; Burchard, Esteban G; Gignoux, Christopher R.

Afiliación

Keys KL; Department of Medicine, University of California, San Francisco, California, United States of America.
Mak ACY; Berkeley Institute for Data Science, University of California, Berkeley, California, United States of America.
White MJ; Department of Medicine, University of California, San Francisco, California, United States of America.
Eckalbar WL; Department of Medicine, University of California, San Francisco, California, United States of America.
Dahl AW; Department of Medicine, University of California, San Francisco, California, United States of America.
Mefford J; Department of Medicine, University of California, San Francisco, California, United States of America.
Mikhaylova AV; Department of Medicine, University of California, San Francisco, California, United States of America.
Contreras MG; Department of Biostatistics, University of Washington, Seattle, Washington, United States of America.
Elhawary JR; Department of Medicine, University of California, San Francisco, California, United States of America.
Eng C; San Francisco State University, San Francisco, California, United States of America.
Hu D; Department of Medicine, University of California, San Francisco, California, United States of America.
Huntsman S; Department of Medicine, University of California, San Francisco, California, United States of America.
Oh SS; Department of Medicine, University of California, San Francisco, California, United States of America.
Salazar S; Department of Medicine, University of California, San Francisco, California, United States of America.
Lenoir MA; Department of Medicine, University of California, San Francisco, California, United States of America.
Ye JC; Department of Medicine, University of California, San Francisco, California, United States of America.
Thornton TA; Bay Area Pediatrics, Oakland, California, United States of America.
Zaitlen N; Department of Epidemiology and Biostatistics, University of California, San Francisco, California, United States of America.
Burchard EG; Department of Bioengineering and Therapeutic Biosciences, University of California, San Francisco, California, United States of America.
Gignoux CR; Department of Biostatistics, University of Washington, Seattle, Washington, United States of America.

PLoS Genet ; 16(8): e1008927, 2020 08.

Article en En | MEDLINE | ID: mdl-32797036

RESUMEN

The genetic control of gene expression is a core component of human physiology. For the past several years, transcriptome-wide association studies have leveraged large datasets of linked genotype and RNA sequencing information to create a powerful gene-based test of association that has been used in dozens of studies. While numerous discoveries have been made, the populations in the training data are overwhelmingly of European descent, and little is known about the generalizability of these models to other populations. Here, we test for cross-population generalizability of gene expression prediction models using a dataset of African American individuals with RNA-Seq data in whole blood. We find that the default models trained in large datasets such as GTEx and DGN fare poorly in African Americans, with a notable reduction in prediction accuracy when compared to European Americans. We replicate these limitations in cross-population generalizability using the five populations in the GEUVADIS dataset. Via realistic simulations of both populations and gene expression, we show that accurate cross-population generalizability of transcriptome prediction only arises when eQTL architecture is substantially shared across populations. In contrast, models with non-identical eQTLs showed patterns similar to real-world data. Therefore, generating RNA-Seq data in diverse populations is a critical step towards multi-ethnic utility of gene expression prediction.

Asunto(s)

Negro o Afroamericano/genética; Estudio de Asociación del Genoma Completo/métodos; Modelos Genéticos; Transcriptoma; Perfilación de la Expresión Génica/métodos; Perfilación de la Expresión Génica/normas; Estudio de Asociación del Genoma Completo/normas; Humanos; Sitios de Carácter Cuantitativo; RNA-Seq/métodos; RNA-Seq/normas; Estándares de Referencia

Texto completo

Imprimir

XML

PubMed Links

Buscar en Google

Texto completo: 1 Banco de datos: MEDLINE Asunto principal: Negro o Afroamericano / Estudio de Asociación del Genoma Completo / Transcriptoma / Modelos Genéticos Tipo de estudio: Prognostic_studies / Risk_factors_studies Límite: Humans Idioma: En Revista: PLoS Genet Asunto de la revista: GENETICA Año: 2020 Tipo del documento: Article País de afiliación: Estados Unidos

Texto completo

Imprimir

XML

PubMed Links

Buscar en Google