Characterizing substructure via mixture modeling in large-scale genetic summary statistics.

Stoneman, Hayley R; Price, Adelle; Trout, Nikole Scribner; Lamont, Riley; Tifour, Souha; Pozdeyev, Nikita; Crooks, Kristy; Lin, Meng; Rafaels, Nicholas; Gignoux, Christopher R; Marker, Katie M; Hendricks, Audrey E

Stoneman, Hayley R; Price, Adelle; Trout, Nikole Scribner; Lamont, Riley; Tifour, Souha; Pozdeyev, Nikita; Crooks, Kristy; Lin, Meng; Rafaels, Nicholas; Gignoux, Christopher R; Marker, Katie M; Hendricks, Audrey E.

Afiliación

Stoneman HR; Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Price A; Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Trout NS; Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Lamont R; Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
Tifour S; Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Pozdeyev N; Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
Crooks K; Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Lin M; Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
Rafaels N; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Gignoux CR; Division of Endocrinology, Diabetes and Metabolism, Department of Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
Hendricks AE; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.

bioRxiv ; 2024 May 13.

Article en En | MEDLINE | ID: mdl-38766180

ABSTRACT

ABSTRACT

Genetic summary data are broadly accessible and highly useful including for risk prediction, causal inference, fine mapping, and incorporation of external controls. However, collapsing individual-level data into groups masks intra- and inter-sample heterogeneity, leading to confounding, reduced power, and bias. Ultimately, unaccounted substructure limits summary data usability, especially for understudied or admixed populations. Here, we present Summix2, a comprehensive set of methods and software based on a computationally efficient mixture model to estimate and adjust for substructure in genetic summary data. In extensive simulations and application to public data, Summix2 characterizes finer-scale population structure, identifies ascertainment bias, and identifies potential regions of selection due to local substructure deviation. Summix2 increases the robust use of diverse publicly available summary data resulting in improved and more equitable research.

Texto completo

Imprimir

XML

PubMed Links

Buscar en Google

Texto completo: 1 Colección: 01-internacional Banco de datos: MEDLINE Idioma: En Revista: BioRxiv Año: 2024 Tipo del documento: Article País de afiliación: Estados Unidos

Texto completo

Imprimir

XML

PubMed Links

Buscar en Google