Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19

Silva, Rildo Pinto da; Pollettini, Juliana Tarossi; Pazin Filho, Antonio

Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19 / Procesamiento del lenguaje natural no supervisado para identificar a los pacientes sospechosos de infección por COVID-19 / Unsupervised natural language processing in the identification of patients with suspected COVID-19 infection

Silva, Rildo Pinto da; Pollettini, Juliana Tarossi; Pazin Filho, Antonio.

Afiliação

Silva, Rildo Pinto da; Universidade de São Paulo. Faculdade de Medicina de Ribeirão Preto. Ribeirão Preto. BR
Pollettini, Juliana Tarossi; Universidade de São Paulo. Faculdade de Medicina de Ribeirão Preto. Ribeirão Preto. BR
Pazin Filho, Antonio; Universidade de São Paulo. Faculdade de Medicina de Ribeirão Preto. Ribeirão Preto. BR

Cad. Saúde Pública (Online) ; 39(11): e00243722, 2023. tab, graf

Article em Pt | LILACS-Express | LILACS | ID: biblio-1550174

Biblioteca responsável: BR1.1

RESUMO

Os pacientes com síndrome pós-COVID-19 se beneficiam de programas de promoção de saúde e sua rápida identificação é importante para a utilização custo efetiva desses programas. Técnicas tradicionais de identificação têm fraco desempenho, especialmente em pandemias. Portanto, foi realizado um estudo observacional descritivo utilizando 105.008 autorizações prévias pagas por operadora privada de saúde com aplicação de método não supervisionado de processamento de linguagem natural por modelagem de tópicos para identificação de pacientes suspeitos de infecção por COVID-19. Foram gerados seis modelos três utilizando o algoritmo BERTopic e três modelos Word2Vec. O modelo BERTopic cria automaticamente grupos de doenças. Já no modelo Word2Vec, para definição dos tópicos relacionados a COVID-19, foi necessária análise manual dos 100 primeiros casos de cada tópico. O modelo BERTopic com mais de 1.000 autorizações por tópico sem tratamento de palavras selecionou pacientes mais graves - custo médio por autorizações prévias pagas de BRL 10.206 e gasto total de BRL 20,3 milhões (5,4%) em 1.987 autorizações prévias (1,9%). Teve 70% de acerto comparado à análise humana e 20% de casos com potencial interesse, todos passíveis de análise para inclusão em programa de promoção à saúde. Teve perda importante de casos quando comparado ao modelo tradicional de pesquisa com linguagem estruturada e identificou outros grupos de doenças - ortopédicas, mentais e câncer. O modelo BERTopic serviu como método exploratório a ser utilizado na rotulagem de casos e posterior aplicação em modelos supervisionados. A identificação automática de outras doenças levanta questionamentos éticos sobre o tratamento de informações em saúde por aprendizado de máquina.

RESUMEN

Los pacientes con síndrome pos-COVID-19 pueden beneficiarse de los programas de promoción de la salud. Su rápida identificación es importante para el uso efectivo de estos programas. Las técnicas de identificación tradicionales no tienen un buen desempeño, especialmente en pandemias. Se realizó un estudio observacional descriptivo, con el uso de 105.008 autorizaciones previas pagadas por un operador de salud privado mediante la aplicación de un método no supervisado de procesamiento del lenguaje natural mediante modelado temático para identificar a los pacientes sospechosos de estar infectados por COVID-19. Se generaron 6 modelos 3 con el uso del algoritmo BERTopic y 3 modelos Word2Vec. El modelo BERTopic crea automáticamente grupos de enfermedades. En el modelo Word2Vec para definir temas relacionados con la COVID-19, fue necesario el análisis manual de los primeros 100 casos de cada tema. El modelo BERTopic con más de 1.000 autorizaciones por tema sin tratamiento de palabras seleccionó a pacientes más graves costo promedio por autorizaciones previas pagada de BRL 10.206 y gasto total de BRL 20,3 millones (5,4%) en 1.987 autorizaciones previas (1,9%). Además, contó con el 70% de aciertos en comparación con el análisis humano y el 20% de los casos con potencial interés, todos los cuales pueden analizarse para su inclusión en un programa de promoción de la salud. Hubo una pérdida significativa de casos en comparación con el modelo tradicional de investigación con lenguaje estructurado y se identificó otros grupos de enfermedades ortopédicas, mentales y cáncer. El modelo BERTopic sirvió como un método exploratorio para ser utilizado en el etiquetado de casos y su posterior aplicación en modelos supervisados. La identificación automática de otras enfermedades plantea preguntas éticas sobre el tratamiento de la información de salud mediante el aprendizaje de máquina.

ABSTRACT

Patients with post-COVID-19 syndrome benefit from health promotion programs. Their rapid identification is important for the cost-effective use of these programs. Traditional identification techniques perform poorly especially in pandemics. A descriptive observational study was carried out using 105,008 prior authorizations paid by a private health care provider with the application of an unsupervised natural language processing method by topic modeling to identify patients suspected of being infected by COVID-19. A total of 6 models were generated 3 using the BERTopic algorithm and 3 Word2Vec models. The BERTopic model automatically creates disease groups. In the Word2Vec model, manual analysis of the first 100 cases of each topic was necessary to define the topics related to COVID-19. The BERTopic model with more than 1,000 authorizations per topic without word treatment selected more severe patients - average cost per prior authorizations paid of BRL 10,206 and total expenditure of BRL 20.3 million (5.4%) in 1,987 prior authorizations (1.9%). It had 70% accuracy compared to human analysis and 20% of cases with potential interest, all subject to analysis for inclusion in a health promotion program. It had an important loss of cases when compared to the traditional research model with structured language and identified other groups of diseases - orthopedic, mental and cancer. The BERTopic model served as an exploratory method to be used in case labeling and subsequent application in supervised models. The automatic identification of other diseases raises ethical questions about the treatment of health information by machine learning.

Palavras-chave

Atención a la Salud; Atenção à Saúde; COVID-19; COVID-19; COVID-19; Criterios de Seleción de Pacientes; Critérios de Seleção de Pacientes; Health Care; Instituciones Privadas de Salud; Instituições Privadas de Saúde; Natural Language Processing; Procesamiento de Lenguaje Natural; Processamento de Linguagem Natural; Proprietary Health Facilities; Selection Criteria

Texto completo

Adicionar na Minha BVS

Imprimir

XML

Buscar no Google

Texto completo: 1 Índice: LILACS Idioma: Pt Revista: Cad. Saúde Pública (Online) Assunto da revista: Sa£de P£blica / Toxicologia Ano de publicação: 2023 Tipo de documento: Article

Texto completo

Adicionar na Minha BVS

Imprimir

XML

Buscar no Google