Multi-head CRF classifier for biomedical multi-class named entity recognition on Spanish clinical notes.

Jonker, Richard A A; Almeida, Tiago; Antunes, Rui; Almeida, João R; Matos, Sérgio

Jonker, Richard A A; Almeida, Tiago; Antunes, Rui; Almeida, João R; Matos, Sérgio.

Afiliación

Jonker RAA; IEETA/DETI, LASI, University of Aveiro, Campus Universitário de Santiago, Aveiro 3810-193, Portugal.
Almeida T; IEETA/DETI, LASI, University of Aveiro, Campus Universitário de Santiago, Aveiro 3810-193, Portugal.
Antunes R; IEETA/DETI, LASI, University of Aveiro, Campus Universitário de Santiago, Aveiro 3810-193, Portugal.
Almeida JR; IEETA/DETI, LASI, University of Aveiro, Campus Universitário de Santiago, Aveiro 3810-193, Portugal.
Matos S; IEETA/DETI, LASI, University of Aveiro, Campus Universitário de Santiago, Aveiro 3810-193, Portugal.

Database (Oxford) ; 20242024 Jul 30.

Article en En | MEDLINE | ID: mdl-39083461

ABSTRACT

ABSTRACT

The identification of medical concepts from clinical narratives has a large interest in the biomedical scientific community due to its importance in treatment improvements or drug development research. Biomedical named entity recognition (NER) in clinical texts is crucial for automated information extraction, facilitating patient record analysis, drug development, and medical research. Traditional approaches often focus on single-class NER tasks, yet recent advancements emphasize the necessity of addressing multi-class scenarios, particularly in complex biomedical domains. This paper proposes a strategy to integrate a multi-head conditional random field (CRF) classifier for multi-class NER in Spanish clinical documents. Our methodology overcomes overlapping entity instances of different types, a common challenge in traditional NER methodologies, by using a multi-head CRF model. This architecture enhances computational efficiency and ensures scalability for multi-class NER tasks, maintaining high performance. By combining four diverse datasets, SympTEMIST, MedProcNER, DisTEMIST, and PharmaCoNER, we expand the scope of NER to encompass five classes symptoms, procedures, diseases, chemicals, and proteins. To the best of our knowledge, these datasets combined create the largest Spanish multi-class dataset focusing on biomedical entity recognition and linking for clinical notes, which is important to train a biomedical model in Spanish. We also provide entity linking to the multi-lingual Systematized Nomenclature of Medicine Clinical Terms (SNOMED CT) vocabulary, with the eventual goal of performing biomedical relation extraction. Through experimentation and evaluation of Spanish clinical documents, our strategy provides competitive results against single-class NER models. For NER, our system achieves a combined micro-averaged F1-score of 78.73, with clinical mentions normalized to SNOMED CT with an end-to-end F1-score of 54.51. The code to run our system is publicly available at https//github.com/ieeta-pt/Multi-Head-CRF. Database URL https//github.com/ieeta-pt/Multi-Head-CRF.

Asunto(s)

Minería de Datos; Humanos; España; Minería de Datos/métodos; Procesamiento de Lenguaje Natural; Registros Electrónicos de Salud

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google

Texto completo: 1 Colección: 01-internacional Base de datos: MEDLINE Asunto principal: Minería de Datos Límite: Humans País/Región como asunto: Europa Idioma: En Revista: Database (Oxford) Año: 2024 Tipo del documento: Article País de afiliación: Portugal

Texto completo

Añadir a Mi BVS

Imprimir

XML

PubMed Links

Buscar en Google