InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS) / InDeCS: Automated method for classification of health Web pages using text mining and Health Sciences Descriptors (DeCS)
J. health inform
; 1(1): 1-6, 2009.
Article
em Pt
| Redbvs
| ID: biblio-859074
Biblioteca responsável:
BR1.1
RESUMO
A quantidade de páginas web tem crescido exponencialmente, potencialmente levando conhecimento a mais pessoas, mas com a desvantagem de dificultar a localização de informação relevante e confiável. Objetivo:
Apresentar resultados sobre a construção de um método automatizado de classificação e indexação de páginas web de saúde.Métodos:
Foram selecionados endereços de páginas web classificadas manualmente como "saúde" e "não-saúde". Em uma segunda etapa foi calculada a similaridade dos termos do conteúdo destas páginas web com os Descritores de Ciência em Saúde (DeCS). Utilizando os valores de similaridade foram desenvolvidos e ajustados parâmetros de classificadores automatizados.Resultados:
Para os experimentos foram coletadas 1.132 páginas web, separadas nas bases "saúde", "não-saúde" e "Merck", gerando mais de 3 milhões de composições até 3-gramas. Experimento usando as bases "saúde" e "não-saúde" resultou acerto, sensibilidade, especificidade e área sob a curva ROC de, respectivamente, 85,10%; 0,81; 0,88 e 0,92. Experimento usando as bases "Merck" e "não-saúde" resultou, respectivamente, 97,44%; 0,92; 1,00 e 0,98.Conclusão:
Os resultados preliminares da investigação sobre o uso de métricas da mineração de texto e vocabulários controlados para aperfeiçoar o resultado de buscadores web especificamente para a área da saúde se mostraram significativos...(AU)ABSTRACT
The amount of webpages has growing strongly, potentially leading knowledge to more people, but with the disadvantage of hindering relevant and reliable information. Objective:
To present results of an automated method to classify and indexing health webpages.Methods:
It was selected and classified webpages manually as health (saúde) and non-health (não-saúde). On a second step it was calculated the similarity between the webpages terms and the Health Science Descriptors (DECS). Automated classifiers parameters were developed using these similarities values.Results:
For this experiment were collected 1,132 webpages, separate in "saúde", "não-saúde" and "Merck" databases, generating more than 3 million of 3 grams compositions. The experiment using the "saúde" and "não-saúde" databases resulted hit, sensitivity, specificity and area under ROC curve, respectively, 85.10%, 0.81, 0.88 and 0.92. The other experiment using the "Merck" and "não-saúde" databases resulted respectively, 97.44%, 0.92, 1.00 and 0.98.Conclusion:
The preliminary results of this text mining metric using controlled vocabularies to improve the result of web search engines specifically for health were significant...(AU)Palavras-chave
Texto completo:
1
Coleções:
05-specialized
Base de dados:
Redbvs
Assunto principal:
Sistemas de Informação
/
Armazenamento e Recuperação da Informação
/
Medical Subject Headings
Idioma:
Pt
Revista:
J. health inform
Ano de publicação:
2009
Tipo de documento:
Article