Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano

Sousa, Fernando Sequeira; Mancini, Felipe; Teixeira, Fabio Oliveira; Falcão, Alex Esteves Jaccoud; Hummel, Anderson Diniz; Nunes, Fátima de Lourdes dos Santos; Sigulem, Daniel; Pisa, Ivan Torres

Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano / Automatic categorization of health-related web content in brazilian portuguese language with bayesian classifier / Categorización automática de contenidos web sobre salud en portugués de Brasil con elclasificador bayesiano

Sousa, Fernando Sequeira; Mancini, Felipe; Teixeira, Fabio Oliveira; Falcão, Alex Esteves Jaccoud; Hummel, Anderson Diniz; Nunes, Fátima de Lourdes dos Santos; Sigulem, Daniel; Pisa, Ivan Torres.

Afiliação

Sousa, Fernando Sequeira; Universidade Federal de São Paulo. Programa de Pós-graduação em Gestão e Informática em Saúde. São Paulo. BR
Mancini, Felipe; Instituto Federal de Educação, Ciência e Tecnologia de São Paulo. Gestão e Informática em Saúde. Guarulhos. BR
Teixeira, Fabio Oliveira; Universidade Federal de São Paulo. Programa de Pós-graduação em Gestão e Informática em Saúde. São Paulo. BR
Falcão, Alex Esteves Jaccoud; Universidade Federal de São Paulo. Programa de Pós-graduação em Gestão e Informática em Saúde. São Paulo. BR
Hummel, Anderson Diniz; Universidade Federal de São Paulo. Programa de Pós-graduação em Gestão e Informática em Saúde. São Paulo. BR
Nunes, Fátima de Lourdes dos Santos; Universidade de São Paulo. Escola de Artes, Ciências e Humanidades. São Paulo. BR
Sigulem, Daniel; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Pisa, Ivan Torres; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR

J. health inform ; 4(1): 10-16, jan.-mar. 2012. tab, ilus

Artigo em Português | LILACS | ID: lil-621715

Biblioteca responsável: BR1.2

RESUMO

Objetivo:

Investigar aplicação de diferentes métodos de representação de textos por vetores de pesos com classificador bayesiano para classificação automática de conteúdos web de saúde em português.

Métodos:

Foi utilizado conjunto de 3.702 páginas web de saúde em português dividido em 19 categorias provenientes do Open Directory Project. Foram comparados desempenho de 4 métodos de representação de textos por vetores de pesos utilizados com o classificador Naive Bayes, medidos por revocação, precisão e F2, considerando da primeira à quinta posições dos rankings de relevância de categorias.

Resultados:

A representação dos textos por ocorrência dos termos utilizada com o classificador Naive Bayes (nb-to) atingiu 0,91 de revocação, precisão e F2 para a primeira posição do ranking de relevância de categorias; para a quinta posição os valores foram 0,98; 0,20 e 0,54, respectivamente. Estes valores colocam nb-to como o melhor classificador dos investigados para a base de dados utilizada, com diferença estatística entre este e todos os demais classificadores.

Conclusão:

Métodos de recuperação de informação baseados no Naive Bayes podem ser utilizados com sucesso para categorizar conteúdo web de saúde em idioma português, sendo que o classificador nb-to atingiu o melhor desempenho na tarefa de classificação.

ABSTRACT

Objective:

To investigate the application of different methods of text representation by weighting vectors with a Bayesian classifier to automatically categorize health-related web pages in Brazilian Portuguese language.

Methods:

We used a set of 3,702 health-related web pages in Brazilian Portuguese language, separated in 19 categories, from Open Directory Project. We compared the effectiveness of 4 different methods of text representation by weighting vectors used with the Naive Bayes classifier, according to recall, precision and F2 measures and considering from the first to the fifth positions of category relevance ranking produced by the classifiers.

Results:

The text representation by counting the term occurrence with the Naive Bayes classifier (nb-to) reached 0.91 of recall, precision and F2 to the first position of the category relevance ranking, while to the fifth position the values were 0.98, 0.20, and 0.54, respectively. These results place nb-to as the best classifier to the database used in this work, with statistical differences between this classifier and all other.

Conclusion:

The information retrieval methods based on Naïve Bayes can be successfully used to categorize health-related web content in Brazilian Portuguese language and the nb-to classifier achieved the best performance at classification.

RESUMEN

Objetivo:

Investigar aplicación de diferentes métodos de representación de textos con un clasificador bayesiano para clasificación automática de contenidos web sobre salud en portugués de Brasil.

Métodos:

Se utilizó un conjunto de 3.702 páginas web sobre salud en portugués de Brasil, en 19 categorías y provenientes del Open Directory Project. Se comparó el desempeño de 4 métodos de representación de textos por vector de pesos utilizados con el clasificador Naive Bayes, medidos por recall, precisión y F2, considerándose de la primera a la quinta posición en los rankings de relevancia de categorías.

Resultados:

El clasificador Naive Bayes (nb-to) alcanzó 0,91 de recall, precisión y F2 para la primera posición en el ranking de relevancia de categorías, mientras que para la quinta posición, los valores fueron de 0,98, 0,20 y 0,54, respectivamente. Estos valores colocan el nb-to como el mejor clasificador para la base de datos utilizado, con diferencia estadística entre éste y todos los clasificadores testados.

Conclusión:

Los métodos de recuperación de información basados en el Naive Bayes pueden ser utilizados con éxito para categorizar contenidos web sobre salud en el idioma portugués de Brasil, pero el clasificador nb-to alcanzó el mejor desempeño al ejecutar la tarea de clasificación.

Assuntos

Classificação , Informação de Saúde ao Consumidor , Inteligência Artificial , Internet , Teorema de Bayes

Texto completo

Imprimir

XML

Buscar no Google

Texto completo: Disponível Base de dados: LILACS Assunto: Inteligência Artificial / Teorema de Bayes / Classificação / Internet / Informação de Saúde ao Consumidor País/Região como assunto: América do Sul / Brasil Idioma: Português Revista: J. health inform Ano de publicação: 2012 Tipo de documento: Artigo

Similares

MEDLINE

LILACS

LIS

Texto completo

Imprimir

XML

Buscar no Google