Your browser doesn't support javascript.
loading
Semi-automated sequence curation for reliable reference datasets in ITS2 vascular plant DNA (meta-)barcoding.
Quaresma, Andreia; Ankenbrand, Markus J; Garcia, Carlos Ariel Yadró; Rufino, José; Honrado, Mónica; Amaral, Joana; Brodschneider, Robert; Brusbardis, Valters; Gratzer, Kristina; Hatjina, Fani; Kilpinen, Ole; Pietropaoli, Marco; Roessink, Ivo; van der Steen, Jozef; Vejsnæs, Flemming; Pinto, M Alice; Keller, Alexander.
Afiliación
  • Quaresma A; Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Ankenbrand MJ; Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Garcia CAY; Departamento de Biologia, Faculdade de Ciências da Universidade do Porto, Rua do Campo Alegre, S/N, Edifício FC4, 4169-007, Porto, Portugal.
  • Rufino J; CIBIO, Centro de Investigação em Biodiversidade e Recursos Genéticos, InBIO Laboratório Associado, Campus de Vairão, Universidade do Porto, 4485-661, Vairão, Vila do Conde, Portugal.
  • Honrado M; BIOPOLIS Program in Genomics, Biodiversity and Land Planning, CIBIO, Campus de Vairão, 4485-661, Vairão, Vila do Conde, Portugal.
  • Amaral J; Center for Computational and Theoretical Biology, Faculty of Biology, Julius-Maximilians-Universität Würzburg, Klara-Oppenheimer-Weg 32, 97074, Würzburg, Germany.
  • Brodschneider R; Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Brusbardis V; Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Gratzer K; Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Hatjina F; Research Centre in Digitalization and Intelligent Robotics (CeDRI), Instituto Politécnico de Bragança, Bragança, Portugal.
  • Kilpinen O; Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Pietropaoli M; Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Roessink I; Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • van der Steen J; Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia, 5300-253, Bragança, Portugal.
  • Vejsnæs F; Institute of Biology, University of Graz, Universitätsplatz 2, 8010, Graz, Austria.
  • Pinto MA; Latvian Beekeepers' Association (LBA), Rigas iela 22, LV-3004, Jelgava, Latvia.
  • Keller A; Institute of Biology, University of Graz, Universitätsplatz 2, 8010, Graz, Austria.
Sci Data ; 11(1): 129, 2024 Jan 25.
Article en En | MEDLINE | ID: mdl-38272945
ABSTRACT
One of the most critical steps for accurate taxonomic identification in DNA (meta)-barcoding is to have an accurate DNA reference sequence dataset for the marker of choice. Therefore, developing such a dataset has been a long-term ambition, especially in the Viridiplantae kingdom. Typically, reference datasets are constructed with sequences downloaded from general public databases, which can carry taxonomic and other relevant errors. Herein, we constructed a curated (i) global dataset, (ii) European crop dataset, and (iii) 27 datasets for the EU countries for the ITS2 barcoding marker of vascular plants. To that end, we first developed a pipeline script that entails (i) an automated curation stage comprising five filters, (ii) manual taxonomic correction for misclassified taxa, and (iii) manual addition of newly sequenced species. The pipeline allows easy updating of the curated datasets. With this approach, 13% of the sequences, corresponding to 7% of species originally imported from GenBank, were discarded. Further, 259 sequences were manually added to the curated global dataset, which now comprises 307,977 sequences of 111,382 plant species.
Asunto(s)

Texto completo: 1 Colección: 01-internacional Base de datos: MEDLINE Asunto principal: Código de Barras del ADN Taxonómico / Tracheophyta Idioma: En Revista: Sci Data Año: 2024 Tipo del documento: Article País de afiliación: Portugal

Texto completo: 1 Colección: 01-internacional Base de datos: MEDLINE Asunto principal: Código de Barras del ADN Taxonómico / Tracheophyta Idioma: En Revista: Sci Data Año: 2024 Tipo del documento: Article País de afiliación: Portugal