Large scale comparison of non-human sequences in human sequencing data.

Tae, Hongseok; Karunasena, Enusha; Bavarva, Jasmin H; McIver, Lauren J; Garner, Harold R

Tae, Hongseok; Karunasena, Enusha; Bavarva, Jasmin H; McIver, Lauren J; Garner, Harold R.

Afiliación

Tae H; Virginia Bioinformatics Institute, Virginia Tech, Blacksburg, VA, USA.
Karunasena E; Virginia Bioinformatics Institute, Virginia Tech, Blacksburg, VA, USA.
Bavarva JH; Virginia Bioinformatics Institute, Virginia Tech, Blacksburg, VA, USA.
McIver LJ; Virginia Bioinformatics Institute, Virginia Tech, Blacksburg, VA, USA.
Garner HR; Virginia Bioinformatics Institute, Virginia Tech, Blacksburg, VA, USA. Electronic address: garner@vbi.vt.edu.

Genomics ; 104(6 Pt B): 453-8, 2014 Dec.

Article en En | MEDLINE | ID: mdl-25173571

RESUMEN

Several studies have demonstrated that unmapped reads in next generation sequencing data could be used to identify infectious agents or structural variants, but there has been no intensive effort to analyze and classify all non-human sequences found in individual large data sets. To identify commonality in non-human sequences by infectious agents and putative contamination events, we analyzed non-human sequences in 150 genomic sequencing data files from the 1000 Genomes Project and observed that 0.13% of reads on average showed similarities to non-human genomes. We compared results among different sample groups divided based on ethnicities, sequencing centers and enrichment methods (whole genome sequencing vs. exome sequencing) and found that sequencing centers had specific signatures of contaminating genomes as 'time stamps'. We also observed many unmapped reads that falsely indicated contamination because of the high similarity of human sequences to sequences in non-human genome assemblies such as mouse and Nicotiana.

Asunto(s)

Contaminación de ADN; Genoma Humano; ADN Bacteriano/química; ADN de Plantas/química; ADN Viral/química; Humanos

Palabras clave

Non-human sequences; Sequencing contamination; Unmapped reads

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google

Texto completo: 1 Colección: 01-internacional Base de datos: MEDLINE Asunto principal: Genoma Humano / Contaminación de ADN Límite: Humans Idioma: En Revista: Genomics Asunto de la revista: GENETICA Año: 2014 Tipo del documento: Article País de afiliación: Estados Unidos Pais de publicación: Estados Unidos

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google