InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS)

Falcão, Alex Esteves Jaccoud; Mancini, Felipe; Costa, Thiago Martini da; Hummel, Anderson Diniz; Teixeira, Fabio Oliveira; Sigulem, Daniel; Pisa, Ivan Torres

InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS) / InDeCS: Automated method for classification of health Web pages using text mining and Health Sciences Descriptors (DeCS)

Falcão, Alex Esteves Jaccoud; Mancini, Felipe; Costa, Thiago Martini da; Hummel, Anderson Diniz; Teixeira, Fabio Oliveira; Sigulem, Daniel; Pisa, Ivan Torres.

Afiliação

Falcão, Alex Esteves Jaccoud; Universidade Federal de São Paulo. São Paulo. BR
Mancini, Felipe; Universidade Federal de São Paulo. São Paulo. BR
Costa, Thiago Martini da; Universidade Federal de São Paulo. São Paulo. BR
Hummel, Anderson Diniz; Universidade Federal de São Paulo. São Paulo. BR
Teixeira, Fabio Oliveira; Universidade Federal de São Paulo. São Paulo. BR
Sigulem, Daniel; Universidade de São Paulo. Departamento de Informática em Saúde. São Paulo. BR
Pisa, Ivan Torres; Universidade Federal de São Paulo. Departamento de Informática em Saúde. São Paulo. BR

J. health inform ; 1(1): 1-6, 2009.

Article em Pt | Redbvs | ID: biblio-859074

Biblioteca responsável: BR1.1

RESUMO
ABSTRACT

RESUMO

A quantidade de páginas web tem crescido exponencialmente, potencialmente levando conhecimento a mais pessoas, mas com a desvantagem de dificultar a localização de informação relevante e confiável.

Objetivo:

Apresentar resultados sobre a construção de um método automatizado de classificação e indexação de páginas web de saúde.

Métodos:

Foram selecionados endereços de páginas web classificadas manualmente como "saúde" e "não-saúde". Em uma segunda etapa foi calculada a similaridade dos termos do conteúdo destas páginas web com os Descritores de Ciência em Saúde (DeCS). Utilizando os valores de similaridade foram desenvolvidos e ajustados parâmetros de classificadores automatizados.

Resultados:

Para os experimentos foram coletadas 1.132 páginas web, separadas nas bases "saúde", "não-saúde" e "Merck", gerando mais de 3 milhões de composições até 3-gramas. Experimento usando as bases "saúde" e "não-saúde" resultou acerto, sensibilidade, especificidade e área sob a curva ROC de, respectivamente, 85,10%; 0,81; 0,88 e 0,92. Experimento usando as bases "Merck" e "não-saúde" resultou, respectivamente, 97,44%; 0,92; 1,00 e 0,98.

Conclusão:

Os resultados preliminares da investigação sobre o uso de métricas da mineração de texto e vocabulários controlados para aperfeiçoar o resultado de buscadores web especificamente para a área da saúde se mostraram significativos...(AU)

ABSTRACT

The amount of webpages has growing strongly, potentially leading knowledge to more people, but with the disadvantage of hindering relevant and reliable information.

Objective:

To present results of an automated method to classify and indexing health webpages.

Methods:

It was selected and classified webpages manually as health (saúde) and non-health (não-saúde). On a second step it was calculated the similarity between the webpages terms and the Health Science Descriptors (DECS). Automated classifiers parameters were developed using these similarities values.

Results:

For this experiment were collected 1,132 webpages, separate in "saúde", "não-saúde" and "Merck" databases, generating more than 3 million of 3 grams compositions. The experiment using the "saúde" and "não-saúde" databases resulted hit, sensitivity, specificity and area under ROC curve, respectively, 85.10%, 0.81, 0.88 and 0.92. The other experiment using the "Merck" and "não-saúde" databases resulted respectively, 97.44%, 0.92, 1.00 and 0.98.

Conclusion:

The preliminary results of this text mining metric using controlled vocabularies to improve the result of web search engines specifically for health were significant...(AU)

Assuntos

Sistemas de Informação; Armazenamento e Recuperação da Informação; Medical Subject Headings; Classificação; Internet

Palavras-chave

Classificação; Inteligência Artificial; Internet; Saúde; Sistemas de Recuperação de Informação

Texto completo

Imprimir

XML

Buscar no Google

Texto completo: 1 Coleções: 05-specialized Base de dados: Redbvs Assunto principal: Sistemas de Informação / Armazenamento e Recuperação da Informação / Medical Subject Headings Idioma: Pt Revista: J. health inform Ano de publicação: 2009 Tipo de documento: Article

Texto completo

Imprimir

XML

Buscar no Google