Modeling and interoperability of heterogeneous genomic big data for integrative processing and querying.

Masseroli, Marco; Kaitoua, Abdulrahman; Pinoli, Pietro; Ceri, Stefano

Masseroli, Marco; Kaitoua, Abdulrahman; Pinoli, Pietro; Ceri, Stefano.

Afiliação

Masseroli M; Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy. Electronic address: marco.masseroli@polimi.it.
Kaitoua A; Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy. Electronic address: abdulrahman.kaitoua@polimi.it.
Pinoli P; Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy. Electronic address: pietro.pinoli@polimi.it.
Ceri S; Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy. Electronic address: stefano.ceri@polimi.it.

Methods ; 111: 3-11, 2016 12 01.

Article em En | MEDLINE | ID: mdl-27637471

RESUMO

While a huge amount of (epi)genomic data of multiple types is becoming available by using Next Generation Sequencing (NGS) technologies, the most important emerging problem is the so-called tertiary analysis, concerned with sense making, e.g., discovering how different (epi)genomic regions and their products interact and cooperate with each other. We propose a paradigm shift in tertiary analysis, based on the use of the Genomic Data Model (GDM), a simple data model which links genomic feature data to their associated experimental, biological and clinical metadata. GDM encompasses all the data formats which have been produced for feature extraction from (epi)genomic datasets. We specifically describe the mapping to GDM of SAM (Sequence Alignment/Map), VCF (Variant Call Format), NARROWPEAK (for called peaks produced by NGS ChIP-seq or DNase-seq methods), and BED (Browser Extensible Data) formats, but GDM supports as well all the formats describing experimental datasets (e.g., including copy number variations, DNA somatic mutations, or gene expressions) and annotations (e.g., regarding transcription start sites, genes, enhancers or CpG islands). We downloaded and integrated samples of all the above-mentioned data types and formats from multiple sources. The GDM is able to homogeneously describe semantically heterogeneous data and makes the ground for providing data interoperability, e.g., achieved through the GenoMetric Query Language (GMQL), a high-level, declarative query language for genomic big data. The combined use of the data model and the query language allows comprehensive processing of multiple heterogeneous data, and supports the development of domain-specific data-driven computations and bio-molecular knowledge discovery.

Assuntos

Mineração de Dados/métodos; Genômica/métodos; Análise de Sequência de DNA/métodos; Software; Variações do Número de Cópias de DNA/genética; Sequenciamento de Nucleotídeos em Larga Escala/métodos; Humanos; Sequências Reguladoras de Ácido Nucleico/genética; Alinhamento de Sequência/métodos; Sítio de Iniciação de Transcrição

Palavras-chave

Data interoperability; Data modeling; Genomic data management; Metadata management; Operations for genomics; Query languages

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Assunto principal: Software / Análise de Sequência de DNA / Genômica / Mineração de Dados Limite: Humans Idioma: En Revista: Methods Assunto da revista: BIOQUIMICA Ano de publicação: 2016 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google