Creation of a new longitudinal corpus of clinical narratives.

Kumar, Vishesh; Stubbs, Amber; Shaw, Stanley; Uzuner, Özlem

Kumar, Vishesh; Stubbs, Amber; Shaw, Stanley; Uzuner, Özlem.

Afiliação

Kumar V; Dartmouth-Hitchcock Medical Center, Division of Cardiology, Lebanon, NH, USA.
Stubbs A; School of Library and Information Science, Simmons College, Boston, MA, USA. Electronic address: stubbs@simmons.edu.
Shaw S; Harvard Medical School, Boston, MA 02115, USA; Center for Systems Biology, Massachusetts General Hospital, Boston, MA 02114, USA.
Uzuner Ö; Department of Information Studies, State University of New York at Albany, Albany, NY, USA.

J Biomed Inform ; 58 Suppl: S6-S10, 2015 Dec.

Article em En | MEDLINE | ID: mdl-26433122

RESUMO

The 2014 i2b2/UTHealth Natural Language Processing (NLP) shared task featured a new longitudinal corpus of 1304 records representing 296 diabetic patients. The corpus contains three cohorts: patients who have a diagnosis of coronary artery disease (CAD) in their first record, and continue to have it in subsequent records; patients who do not have a diagnosis of CAD in the first record, but develop it by the last record; patients who do not have a diagnosis of CAD in any record. This paper details the process used to select records for this corpus and provides an overview of novel research uses for this corpus. This corpus is the only annotated corpus of longitudinal clinical narratives currently available for research to the general research community.

Assuntos

Doença da Artéria Coronariana/epidemiologia; Mineração de Dados/métodos; Complicações do Diabetes/epidemiologia; Registros Eletrônicos de Saúde/organização & administração; Narração; Processamento de Linguagem Natural; Idoso; Boston/epidemiologia; Estudos de Coortes; Comorbidade; Segurança Computacional; Confidencialidade; Doença da Artéria Coronariana/diagnóstico; Complicações do Diabetes/diagnóstico; Feminino; Humanos; Incidência; Masculino; Pessoa de Meia-Idade; Medição de Risco/métodos; Vocabulário Controlado

Palavras-chave

Corpus; Machine learning; Medical records; NLP

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google

Texto completo: 1 Coleções: 01-internacional Base de dados: MEDLINE Assunto principal: Doença da Artéria Coronariana / Processamento de Linguagem Natural / Narração / Complicações do Diabetes / Registros Eletrônicos de Saúde / Mineração de Dados Tipo de estudo: Diagnostic_studies / Etiology_studies / Incidence_studies / Observational_studies / Prognostic_studies / Qualitative_research / Risk_factors_studies Limite: Aged / Female / Humans / Male / Middle aged País/Região como assunto: America do norte Idioma: En Ano de publicação: 2015 Tipo de documento: Article

Texto completo

Imprimir

XML

PubMed Links

Buscar no Google