Reconocimiento de rutas biosintéticas para semioquímicos mediante técnicas de aprendizaje de máquina
Rev. colomb. quím. (Bogotá)
; 51(2)ago. 2022.
Article
em Es
|
LILACS-Express
| LILACS
| ID: biblio-1536159
Biblioteca responsável:
CO304.1
RESUMEN
En este trabajo consideramos 148 semioquímicos reportados para la familia Scarabaeidae, cuya estructura química fue caracterizada empleando un conjunto de 200 descriptores moleculares de cinco clases distintas. La selección de los descriptores más discriminantes se realizó con tres técnicas análisis de componentes principales, por cada clase de descriptores, bosques aleatorios y Boruta-Shap, aplicados al total de descriptores. A pesar de que las tres técnicas son conceptualmente diferentes, seleccionan un número de descriptores similar de cada clase. Propusimos una combinación de técnicas de aprendizaje de máquina para buscar un patrón estructural en el conjunto de semioquímicos y posteriormente realizar la clasificación de estos. El patrón se estableció a partir de la alta pertenencia de un subconjunto de estos metabolitos a los grupos que fueron obtenidos por un método de agrupamiento basado en lógica difusa, C-means; el patrón descubierto corresponde a las rutas biosintéticas por las cuales se obtienen biológicamente. Esta primera clasificación se corroboró con el empleo de mapas autoorganizados de Kohonen. Para clasificar aquellos semioquímicos cuya pertenencia a una ruta no quedaba claramente definida, construimos dos modelos de perceptrones multicapa, los cuales tuvieron un desempeño aceptable.
ABSTRACT
In this work we consider 148 semiochemicals reported for the family Scarabaeidae, whose chemical structure was characterized using a set of 200 molecular descriptors from five different classes. The selection of the most discriminating descriptors was carried out with three different techniques Principal Component Analysis, for each class of descriptors, Random Forests and Boruta-Shap, applied to the total of descriptors. Although the three techniques are conceptually different, they select a similar number of descriptors from each class. We proposed a combination of machine learning techniques to search for a structural pattern in the set of semiochemicals and then perform their classification. The pattern was established from the high belonging of a subset of these metabolites to the groups that were obtained by a grouping method based on fuzzy C-means logic; the discovered pattern corresponds to the biosynthetic pathway by which they are obtained biologically. This first classification was corroborated with Kohonen's self-organizing maps. To classify those semiochemicals whose belonging to a biosynthetic pathway was not clearly defined, we built two models of Multilayer Perceptrons which had an acceptable performance.
RESUMO
Neste trabalho consideramos 148 semioquímicos reportados para a família Scarabaeidae, cuja estrutura química foi caracterizada usando um conjunto de 200 descritores moleculares de 5 classes diferentes. A seleção dos descritores mais discriminantes foi realizada com três técnicas diferentes Análise de Componentes Principais, para cada classe de descritores, Florestas Aleatórias e Boruta-Shap, aplicadas a todos os descritores. Embora as três técnicas sejam conceitualmente diferentes, elas selecionaram um número semelhante de descritores de cada classe. Nós propusemos uma combinação de técnicas de aprendizado de máquina para buscar um padrão estrutural no conjunto de semioquímicos e então realizar sua classificação. O padrão foi estabelecido a partir da alta pertinência de um subconjunto desses metabólitos aos grupos que foram obtidos por um método de agrupamento baseado em lógica fuzzy, C-means; o padrão descoberto corresponde às rotas biossintéticas pelas quais eles são obtidos biologicamente. Essa primeira classificação foi corroborada com o uso dos mapas auto-organizados de Kohonen. Para classificar os semioquímicos cuja pertença a uma rota não foi claramente definida, construímos dois modelos de Perceptrons Multicamadas que tiveram um desempenho aceitável.
Bosques aleatorios; C-means; Descriptores moleculares; Descritores moleculares; Familia Scarabaeidae; Family Scarabaeidae; Família Scarabaeidae; Florestas aleatórias; Molecular descriptors; Multilayer perceptron; Neural networks; Perceptron multicamadas; Perceptrón multicapa; Random forests; Redes neurais; Redes neuronales
Texto completo:
1
Coleções:
01-internacional
Base de dados:
LILACS
Idioma:
Es
Revista:
Rev. colomb. quím. (Bogotá)
Assunto da revista:
QUIMICA
Ano de publicação:
2022
Tipo de documento:
Article
País de publicação:
Colômbia