annotate_my_genomes: an easy-to-use pipeline to improve genome annotation and uncover neglected genes by hybrid RNA sequencing.

Farkas, Carlos; Recabal, Antonia; Mella, Andy; Candia-Herrera, Daniel; Olivero, Maryori González; Haigh, Jody Jonathan; Tarifeño-Saldivia, Estefanía; Caprile, Teresa

Farkas, Carlos; Recabal, Antonia; Mella, Andy; Candia-Herrera, Daniel; Olivero, Maryori González; Haigh, Jody Jonathan; Tarifeño-Saldivia, Estefanía; Caprile, Teresa.

Afiliação

Farkas C; Laboratorio de Investigación en Ciencias Biomédicas, Departamento de Ciencias Básicas y Morfología, Facultad de Medicina, Universidad Católica de la Santísima Concepción, Concepción, Chile.
Recabal A; Departamento de Biología Celular, Facultad de Ciencias Biológicas, Universidad de Concepción, Chile.
Mella A; Instituto de Ciencias Naturales, Universidad de las Américas, Chile.
Candia-Herrera D; Centro Integrativo de Biología y Química Aplicada (CIBQA), Universidad Bernardo O'Higgins, Santiago 8370854, Chile.
Olivero MG; Departamento de Bioquímica y Biología Molecular, Facultad de Ciencias Biológicas, Universidad de Concepción, Chile.
Haigh JJ; Departamento de Biología Celular, Facultad de Ciencias Biológicas, Universidad de Concepción, Chile.
Tarifeño-Saldivia E; CancerCare Manitoba Research Institute, Winnipeg, MB, Canada.
Caprile T; Department of Pharmacology and Therapeutics, Rady Faculty of Health Sciences, University of Manitoba, Winnipeg, MB, Canada.

Gigascience ; 112022 12 06.

Article em En | MEDLINE | ID: mdl-36472574

RESUMO

BACKGROUND: The advancement of hybrid sequencing technologies is increasingly expanding genome assemblies that are often annotated using hybrid sequencing transcriptomics, leading to improved genome characterization and the identification of novel genes and isoforms in a wide variety of organisms. RESULTS: We developed an easy-to-use genome-guided transcriptome annotation pipeline that uses assembled transcripts from hybrid sequencing data as input and distinguishes between coding and long non-coding RNAs by integration of several bioinformatic approaches, including gene reconciliation with previous annotations in GTF format. We demonstrated the efficiency of this approach by correctly assembling and annotating all exons from the chicken SCO-spondin gene (containing more than 105 exons), including the identification of missing genes in the chicken reference annotations by homology assignments. CONCLUSIONS: Our method helps to improve the current transcriptome annotation of the chicken brain. Our pipeline, implemented on Anaconda/Nextflow and Docker is an easy-to-use package that can be applied to a broad range of species, tissues, and research areas helping to improve and reconcile current annotations. The code and datasets are publicly available at https://github.com/cfarkas/annotate_my_genomes.

Assuntos

Análise de Sequência de RNA

Palavras-chave

Genome Annotation pipeline; SCO-spondin; Transcriptome annotation; hybrid sequencing

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Idioma: En Ano de publicação: 2022 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Idioma: En Ano de publicação: 2022 Tipo de documento: Article