Pesquisa | Repositório BVS

InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS) / InDeCS: Automated method for classification of health Web pages using text mining and Health Sciences Descriptors (DeCS)

Falcão, Alex Esteves Jaccoud; Mancini, Felipe; Costa, Thiago Martini da; Hummel, Anderson Diniz; Teixeira, Fabio Oliveira; Sigulem, Daniel; Pisa, Ivan Torres.

J. health inform ; 1(1): 1-6, 2009.

Artigo em Português | Repositório BVS | ID: biblio-859074

RESUMO

A quantidade de páginas web tem crescido exponencialmente, potencialmente levando conhecimento a mais pessoas, mas com a desvantagem de dificultar a localização de informação relevante e confiável. Objetivo: Apresentar resultados sobre a construção de um método automatizado de classificação e indexação de páginas web de saúde. Métodos: Foram selecionados endereços de páginas web classificadas manualmente como "saúde" e "não-saúde". Em uma segunda etapa foi calculada a similaridade dos termos do conteúdo destas páginas web com os Descritores de Ciência em Saúde (DeCS). Utilizando os valores de similaridade foram desenvolvidos e ajustados parâmetros de classificadores automatizados. Resultados: Para os experimentos foram coletadas 1.132 páginas web, separadas nas bases "saúde", "não-saúde" e "Merck", gerando mais de 3 milhões de composições até 3-gramas. Experimento usando as bases "saúde" e "não-saúde" resultou acerto, sensibilidade, especificidade e área sob a curva ROC de, respectivamente, 85,10%; 0,81; 0,88 e 0,92. Experimento usando as bases "Merck" e "não-saúde" resultou, respectivamente, 97,44%; 0,92; 1,00 e 0,98. Conclusão: Os resultados preliminares da investigação sobre o uso de métricas da mineração de texto e vocabulários controlados para aperfeiçoar o resultado de buscadores web especificamente para a área da saúde se mostraram significativos...(AU)

The amount of webpages has growing strongly, potentially leading knowledge to more people, but with the disadvantage of hindering relevant and reliable information. Objective: To present results of an automated method to classify and indexing health webpages. Methods: It was selected and classified webpages manually as health (saúde) and non-health (não-saúde). On a second step it was calculated the similarity between the webpages terms and the Health Science Descriptors (DECS). Automated classifiers parameters were developed using these similarities values. Results: For this experiment were collected 1,132 webpages, separate in "saúde", "não-saúde" and "Merck" databases, generating more than 3 million of 3 grams compositions. The experiment using the "saúde" and "não-saúde" databases resulted hit, sensitivity, specificity and area under ROC curve, respectively, 85.10%, 0.81, 0.88 and 0.92. The other experiment using the "Merck" and "não-saúde" databases resulted respectively, 97.44%, 0.92, 1.00 and 0.98. Conclusion: The preliminary results of this text mining metric using controlled vocabularies to improve the result of web search engines specifically for health were significant...(AU)

Assuntos

Sistemas de Informação , Armazenamento e Recuperação da Informação , Medical Subject Headings , Classificação , Internet

RESUMO

Assuntos

ENVIAR RESULTADO:

SELEÇÃO DE REFERÊNCIAS

DETALHE DA PESQUISA