Multilabel classification of medical concepts for patient clinical profile identification.

Gérardin, Christel; Wajsbürt, Perceval; Vaillant, Pascal; Bellamine, Ali; Carrat, Fabrice; Tannier, Xavier

Gérardin, Christel; Wajsbürt, Perceval; Vaillant, Pascal; Bellamine, Ali; Carrat, Fabrice; Tannier, Xavier.

Afiliação

Gérardin C; Institut Pierre Louis d'Epidémiologie et de Santé Publique, Sorbonne Université, Inserm, 27 rue Chaligny, 75012 Paris, France; Département de médecine interne, APHP. Sorbonne Université, France. Electronic address: christel.ducroz-gerardin@iplesp.upmc.fr.
Wajsbürt P; Sorbonne Université, Inserm, Université Sorbonne Paris Nord, Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances pour la e-Santé (LIMICS), 75006 Paris, France.
Vaillant P; Université Sorbonne Paris Nord, Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances en eSanté (LIMICS), Sorbonne Université, Inserm, F-93000 Bobigny, France.
Bellamine A; Département de médecine interne, APHP. Sorbonne Université, France.
Carrat F; Institut Pierre Louis d'Epidémiologie et de Santé Publique, Sorbonne Université, Inserm, 27 rue Chaligny, 75012 Paris, France; Public Health Department, Hôpital St-Antoine, APHP. Sorbonne-Université, Paris, France.
Tannier X; Sorbonne Université, Inserm, Université Sorbonne Paris Nord, Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances pour la e-Santé (LIMICS), 75006 Paris, France.

Artif Intell Med ; 128: 102311, 2022 06.

Article em En | MEDLINE | ID: mdl-35534148

ABSTRACT

ABSTRACT

BACKGROUND:

The development of electronic health records has provided a large volume of unstructured biomedical information. Extracting patient characteristics from these data has become a major challenge, especially in languages other than English.

METHODS:

Inspired by the French Text Mining Challenge (DEFT 2021) [1] in which we participated, our study proposes a multilabel classification of clinical narratives, allowing us to automatically extract the main features of a patient report. Our system is an end-to-end pipeline from raw text to labels with two main

steps:

named entity recognition and multilabel classification. Both steps are based on a neural network architecture based on transformers. To train our final classifier, we extended the dataset with all English and French Unified Medical Language System (UMLS) vocabularies related to human diseases. We focus our study on the multilingualism of training resources and models, with experiments combining French and English in different ways (multilingual embeddings or translation).

RESULTS:

We obtained an overall average micro-F1 score of 0.811 for the multilingual version, 0.807 for the French-only version and 0.797 for the translated version.

CONCLUSION:

Our study proposes an original multilabel classification of French clinical notes for patient phenotyping. We show that a multilingual algorithm trained on annotated real clinical notes and UMLS vocabularies leads to the best results.

Assuntos

Multilinguismo; Processamento de Linguagem Natural; Mineração de Dados; Humanos; Idioma; Unified Medical Language System

Palavras-chave

Biomedical concepts; Multilabel classification; Multilingual NLP; NER; Transformers

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Assunto principal: Processamento de Linguagem Natural / Multilinguismo Tipo de estudo: Diagnostic_studies / Prognostic_studies Limite: Humans Idioma: En Revista: Artif Intell Med Assunto da revista: INFORMATICA MEDICA Ano de publicação: 2022 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google