Repeatability, reproducibility, and diagnostic accuracy of a commercial large language model (ChatGPT) to perform emergency department triage using the Canadian triage and acuity scale.

Franc, Jeffrey Michael; Cheng, Lenard; Hart, Alexander; Hata, Ryan; Hertelendy, Atilla

Franc, Jeffrey Michael; Cheng, Lenard; Hart, Alexander; Hata, Ryan; Hertelendy, Atilla.

Franc JM; Department of Emergency Medicine, University of Alberta, Edmonton, AB, Canada. jeffrey.franc@ualberta.ca.
Cheng L; Faculty of Medicine, University of Alberta, Edmonton, AB, Canada. jeffrey.franc@ualberta.ca.
Hart A; Università del Piemonte Orientale, Novara, Italy. jeffrey.franc@ualberta.ca.
Hata R; Department of Emergency Medicine, Beth Israel Deaconess Medical Center, Boston, MA, USA.
Hertelendy A; Harvard Medical School, Boston, MA, USA.

CJEM ; 26(1): 40-46, 2024 Jan.

Article en En | MEDLINE | ID: mdl-38206515

ABSTRAIT: OBJECTIF: La sortie du prototype ChatGPT au public en novembre 2022 a considérablement réduit l'obstacle à l'utilisation de l'intelligence artificielle en permettant un accès facile à un grand modèle de langage avec une interface web simple. Une situation où ChatGPT pourrait être utile est de trier les patients qui arrivent au service d'urgence. Cette étude visait à résoudre le problème de la recherche : «Les médecins d'urgence peuvent-ils utiliser ChatGPT pour trier avec précision les patients à l'aide de l'Échelle canadienne de triage et d'acuité (ECTC) ?¼. MéTHODES: Six invites uniques ont été élaborées indépendamment par cinq urgentologues. Un script automatisé a été utilisé pour interroger ChatGPT avec chacune des six invites combinées à 61 vignettes de patients validées et précédemment publiées. Trente répétitions de chaque combinaison ont été réalisées pour un total de 10980 triages simulés. RéSULTATS: Dans 99.6 % des 10980 requêtes, un score CTAS a été obtenu. Cependant, il y a eu des variations considérables dans les résultats. La répétabilité (utilisation répétée de la même invite) était responsable de 21.0 % de la variation globale. La reproductibilité (utilisation de différentes invites) était responsable de 4.0 % de la variation globale. La précision globale de ChatGPT pour le triage des patients simulés était de 47.5 %, avec un taux de sous-triage de 13.7 % et un taux de triage supérieur de 38.7 %. Un texte plus détaillé donné à titre d'invite était associé à une plus grande reproductibilité, mais à une augmentation minimale de la précision. CONCLUSIONS: Cette étude suggère que le modèle actuel de ChatGPT en langage large n'est pas suffisant pour permettre aux médecins d'urgence de trier des patients simulés à l'aide de l'échelle canadienne de triage et d'acuité en raison de la faible répétabilité et de la faible précision. Les médecins doivent être conscients que, bien que ChatGPT puisse être un outil précieux, il peut manquer de cohérence et fournir fréquemment de fausses informations.

Asunto(s)

Inteligencia Artificial; Triaje; Humanos; Triaje/métodos; Reproducibilidad de los Resultados; Canadá; Servicio de Urgencia en Hospital

Palabras clave

Artificial intelligence; Canadian triage and acuity scale; Emergency medicine; Large language models; Triage

Texto completo

Imprimir

XML

PubMed Links

Search on Google

Texto completo: 1 Banco de datos: MEDLINE Asunto principal: Inteligencia Artificial / Triaje Tipo de estudio: Diagnostic_studies / Prognostic_studies Límite: Humans País como asunto: America do norte Idioma: En Año: 2024 Tipo del documento: Article

Texto completo

Imprimir

XML

PubMed Links

Search on Google