Automatic classification of written descriptions by healthy adults: an overview of the application of natural language processing and machine learning techniques to clinical discourse analysis

Toledo, Cíntia Matsuda; Cunha, Andre; Carolina, Scarton; Aluísio, Sandro

Automatic classification of written descriptions by healthy adults: an overview of the application of natural language processing and machine learning techniques to clinical discourse analysis / Classificação automática de discurso descritivo escrito de adultos sadios: uma visão geral da aplicação de técnicas de processamento de línguas naturais e aprendizado de máquina à análise clínica do discurso

Toledo, Cíntia Matsuda; Cunha, Andre; Carolina, Scarton; Aluísio, Sandro.

Afiliação

Toledo, Cíntia Matsuda; Universidade de São Paulo. Universidade de São Paulo. São Paulo, SP. BR
Cunha, Andre; Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação. Núcleo Interinstitucional de Linguística Computacional. São Paulo, SP. BR
Carolina, Scarton; University of Shef. Department of Computer Science. Shef. GB
Aluísio, Sandro; Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação. Núcleo Interinstitucional de Linguística Computacional. São Paulo, SP. BR

Dement. neuropsychol ; 8(3)set. 14.

Artigo em Inglês | LILACS | ID: lil-724274

Biblioteca responsável: BR15.3

Localização: BR15.3

ABSTRACT
RESUMO

ABSTRACT

Discourse production is an important aspect in the evaluation of brain-injured individuals. We believe that studies comparing the performance of brain-injured subjects with that of healthy controls must use groups with compatible education. A pioneering application of machine learning methods using Brazilian Portuguese for clinical purposes is described, highlighting education as an important variable in the Brazilian scenario.

Objective:

The aims were to describe how to (i) develop machine learning classifiers using features generated by natural language processing tools to distinguish descriptions produced by healthy individuals into classes based on their years of education; and (ii) automatically identify the features that best distinguish the groups.

Methods:

The approach proposed here extracts linguistic features automatically from the written descriptions with the aid of two Natural Language Processing tools Coh-Metrix-Port and AIC. It also includes nine task-specific features (three new ones, two extracted manually, besides description time; type of scene described ? simple or complex; presentation order ? which type of picture was described first; and age). In this study, the descriptions by 144 of the subjects studied in Toledo18 were used,which included 200 healthy Brazilians of both genders. Results and

Conclusion:

A Support Vector Machine (SVM) with a radial basis function (RBF) kernel is the most recommended approach for the binary classification of our data, classifying three of the four initial classes. CfsSubsetEval (CFS) is a strong candidate to replace manual feature selection methods.

RESUMO

Um importante aspecto na avaliação de indivíduos com lesão cerebral é a produção de discurso. Acreditamos que estudos que comparam o desempenho de lesados com grupos de controles sadios devem utilizar grupos com escolaridade compatíveis. Nós apresentamos uma abordagem pioneira ao utilizar métodos de aprendizado de máquina com propósitos clínicos, para o Português do Brasil, destacando a escolaridade como variável de importância no cenário brasileiro.

Objetivo:

Nosso objetivo é descrever como (i) desenvolver classificadores via aprendizado de máquina, usando features criadas por ferramentas de processamento de línguas naturais, para diferenciar descrições produzidas por indivíduos sadios em classes de anos de escolaridade e (ii) identificar automaticamente as features que melhor distinguem esses grupos.

Métodos:

A abordagem proposta neste estudo extrai características linguísticas automaticamente a partir das descrições escritas com a ajuda de duas ferramentas de Processamento de Linguagem Natural Coh-Metrix-Port e AIC. Ela inclui ainda nove features dedicadas à tarefa (três novas, duas extraídas manualmente, além de tempo de descrição; tipo de cena descrita - simples ou complexa; ordem de apresentação das figuras e idade). Neste estudo, foram utilizadas as descrições de 144 indivíduos estudados em Toledo18, que incluiu 200 brasileiros, sadios, de ambos sexos. Resultados e

Conclusão:

SMV com kernel RBF é o mais recomendado para a classificação binária dos nossos dados, classificando três das quatro classes iniciais. O método de seleção das features CfsSubsetEval (CSF) é um forte candidato para substituir métodos de seleção manual.

Assuntos

Humanos; Processamento de Linguagem Natural; Adulto; Escolaridade; Grupos Etários

Adultos; Adults; Age groups; Educational status; Escolaridade,; Grupos etários; Language tests; Narrativas; Narratives; Natural language processing; Processamento de linguagem natural; Testes de linguagem

Texto completo

Adicionar na Minha BVS

Imprimir

XML

Buscar no Google

Texto completo: Disponível Coleções: Bases de dados internacionais Base de dados: LILACS Assunto principal: Processamento de Linguagem Natural / Adulto / Escolaridade / Grupos Etários Tipo de estudo: Guia de prática clínica / Estudo prognóstico Limite: Humanos Idioma: Inglês Revista: Dement. neuropsychol Assunto da revista: NEUROCIENCIAS / Neurologia / Psicologia / Psiquiatria Ano de publicação: 2014 Tipo de documento: Artigo País de afiliação: Brasil / Reino Unido Instituição/País de afiliação: Universidade de São Paulo/BR / University of Shef/GB

Texto completo

Adicionar na Minha BVS

Imprimir

XML

Buscar no Google