InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS) / InDeCS: Automated method for classification of health Web pages using text mining and Health Sciences Descriptors (DeCS)
Artigo
em Português
| Repositório BVS | ID: biblio-859074
A quantidade de páginas web tem crescido exponencialmente, potencialmente levando conhecimento a mais pessoas, mas com a desvantagem de dificultar a localização de informação relevante e confiável.
Foram selecionados endereços de páginas web classificadas manualmente como "saúde" e "não-saúde". Em uma segunda etapa foi calculada a similaridade dos termos do conteúdo destas páginas web com os Descritores de Ciência em Saúde (DeCS). Utilizando os valores de similaridade foram desenvolvidos e ajustados parâmetros de classificadores automatizados.
Resultados:
Para os experimentos foram coletadas 1.132 páginas web, separadas nas bases "saúde", "não-saúde" e "Merck", gerando mais de 3 milhões de composições até 3-gramas. Experimento usando as bases "saúde" e "não-saúde" resultou acerto, sensibilidade, especificidade e área sob a curva ROC de, respectivamente, 85,10%; 0,81; 0,88 e 0,92. Experimento usando as bases "Merck" e "não-saúde" resultou, respectivamente, 97,44%; 0,92; 1,00 e 0,98.
Conclusão:
Os resultados preliminares da investigação sobre o uso de métricas da mineração de texto e vocabulários controlados para aperfeiçoar o resultado de buscadores web especificamente para a área da saúde se mostraram significativos...(AU)
The amount of webpages has growing strongly, potentially leading knowledge to more people, but with the disadvantage of hindering relevant and reliable information.
Objective:
To present results of an automated method to classify and indexinghealth webpages.
Methods:
It was selected and classified webpages manually as health (saúde) and non-health (não-saúde). On a second step it was calculated the similarity between the webpages terms and the HealthScienceDescriptors (DECS). Automated classifiers parameters were developed using these similarities values.
Results:
For this experiment were collected 1,132 webpages, separate in "saúde", "não-saúde" and "Merck" databases, generating more than 3 million of 3 grams compositions. The experiment using the "saúde" and "não-saúde" databases resulted hit, sensitivity, specificity and area under ROC curve, respectively, 85.10%, 0.81, 0.88 and 0.92. The other experiment using the "Merck" and "não-saúde" databases resulted respectively, 97.44%, 0.92, 1.00 and 0.98.