Understanding sequencing data as compositions: an outlook and review.

Quinn, Thomas P; Erb, Ionas; Richardson, Mark F; Crowley, Tamsyn M

Quinn, Thomas P; Erb, Ionas; Richardson, Mark F; Crowley, Tamsyn M.

Afiliação

Quinn TP; Bioinformatics Core Research Group, Deakin University, Geelong, Australia.
Erb I; Centre for Genomic Regulation (CRG), The Barcelona Institute of Science and Technology, Barcelona, Spain.
Richardson MF; Universitat Pompeu Fabra (UPF), Barcelona, Spain.
Crowley TM; Bioinformatics Core Research Group, Deakin University, Geelong, Australia.

Bioinformatics ; 34(16): 2870-2878, 2018 08 15.

Article em En | MEDLINE | ID: mdl-29608657

ABSTRACT

ABSTRACT

Motivation Although seldom acknowledged explicitly, count data generated by sequencing platforms exist as compositions for which the abundance of each component (e.g. gene or transcript) is only coherently interpretable relative to other components within that sample. This property arises from the assay technology itself, whereby the number of counts recorded for each sample is constrained by an arbitrary total sum (i.e. library size). Consequently, sequencing data, as compositional data, exist in a non-Euclidean space that, without normalization or transformation, renders invalid many conventional analyses, including distance measures, correlation coefficients and multivariate statistical models.

Results:

The purpose of this review is to summarize the principles of compositional data analysis (CoDA), provide evidence for why sequencing data are compositional, discuss compositionally valid methods available for analyzing sequencing data, and highlight future directions with regard to this field of study. Supplementary information Supplementary data are available at Bioinformatics online.

Assuntos

Análise de Sequência; Biblioteca Gênica; Humanos; Modelos Estatísticos; Análise de Sequência/estatística & dados numéricos

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Assunto principal: Análise de Sequência Tipo de estudo: Risk_factors_studies Limite: Humans Idioma: En Revista: Bioinformatics Assunto da revista: INFORMATICA MEDICA Ano de publicação: 2018 Tipo de documento: Article País de afiliação: Austrália

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google