Your browser doesn't support javascript.
loading
Sketched reference databases for genome-based taxonomy and comparative genomics / Bases de dados de referência esboçados para taxonomia baseada em genoma e genômica comparativa
Sánchez-Reyes, A; Fernández-López, M. G.
Afiliação
  • Sánchez-Reyes, A; Instituto de Biotecnología. Universidad Nacional Autónoma de México. Consejo Nacional de Ciencia y Tecnología. Cuernavaca. MX
  • Fernández-López, M. G; Instituto de Investigaciones Básicas y Aplicadas. Centro de Investigación en Dinámica Celular. Universidad Autónoma del Estado de Morelos. Cuernavaca. MX
Braz. j. biol ; 84: e256673, 2024. tab, ilus
Article em En | VETINDEX | ID: biblio-1403861
Biblioteca responsável: BR68.1
Localização: BR68.1
ABSTRACT
The analysis of curated genomic, metagenomic and proteomic data is of paramount importance in the fields of biology, medicine, education, and bioinformatics. Although this type of data is usually hosted in raw format on free international repositories, the full access requires lots of computing power and large storage disk space for the domestic user. The purpose of the study is to offer a comprehensive set of microbial genomic and proteomic reference databases in an accessible and easy-to-use form to the scientific community and demonstrate its advantages and usefulness. Also, we present a case study on the applicability of the sketched data, for the determination of overall genomic coherence between two members of the Brucellacea family, which suggests they belong to the same genomospecies that remain as discrete ecotypes. A representative set of genomes, proteomes (from type material), and metagenomes were directly collected from the NCBI Assembly database and Genome Taxonomy Database (GTDB), associated with the major groups of Bacteria, Archaea, Virus, and Fungi. Sketched databases were subsequently created and stored on handy reduced representations by using the MinHash algorithm implemented in Mash software. The obtained dataset contains more than 133 GB of space disk reduced to 883.25 MB and represents 125,110 genomics/proteomic records from eight informative contexts, which have been prefiltered to make them accessible, usable, and user-friendly with limited computational resources. Potential uses of these sketched databases are discussed, including but not limited to microbial species delimitation, estimation of genomic distances and genomic novelties, paired comparisons between proteomes, genomes, and metagenomes; phylogenetic neighbor's exploration and selection, among others.
RESUMO
A análise de dados genômicos, metagenômicos e proteômicos com curadoria é de suma importância nos campos da biologia, medicina, educação e bioinformática. Embora esse tipo de dados geralmente seja hospedado em formato bruto em repositórios internacionais gratuitos, o acesso total requer muita capacidade de computação e grande espaço em disco de armazenamento para o usuário doméstico. Os objetivos do estudo são oferecer um conjunto abrangente de bancos de dados de referência genômica e proteômica microbiana de forma acessível e fácil de usar para a comunidade científica e demonstrar suas vantagens e utilidade. Além disso, apresentamos um estudo de caso sobre a aplicabilidade dos dados esboçados para a determinação da coerência genômica geral entre dois membros da família Brucellacea, o que sugere que eles pertencem às mesmas genomoespécies que permanecem como ecótipos discretos. Um conjunto representativo de genomas, proteomas (de material tipo) e metagenomas foi coletado diretamente do banco de dados NCBI Assembly e do banco de dados de taxonomia do genoma (GTDB), associada aos principais grupos de bactérias, Archaea, vírus e fungos. Bancos de dados esboçados foram subsequentemente criados e armazenados em representações reduzidas práticas usando o algoritmo MinHash implementado no software Mash. O conjunto de dados obtido contém mais de 133 GB de espaço em disco reduzido para 883,25 MB e representa 125,110 registros genômicos/proteômicos de oito contextos informativos, que foram pré-filtrados para torná-los acessíveis, utilizáveis ​​e amigáveis ​​com recursos computacionais limitados. Os usos potenciais desses bancos de dados esboçados são discutidos, incluindo, mas não se limitando, a delimitação de espécies microbianas, estimativa de distâncias genômicas e novidades genômicas, comparações emparelhadas entre proteomas, genomas e metagenomas, exploração e seleção filogenética de vizinhos, entre outros.
Licença
Assuntos
Palavras-chave

Texto completo: 1 Base de dados: VETINDEX Assunto principal: Classificação / Genoma / Genes Microbianos Idioma: En Revista: Braz. j. biol Ano de publicação: 2024 Tipo de documento: Article

Texto completo: 1 Base de dados: VETINDEX Assunto principal: Classificação / Genoma / Genes Microbianos Idioma: En Revista: Braz. j. biol Ano de publicação: 2024 Tipo de documento: Article