Étude et rapport

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

GRATUIT

Accueil Intelligence Artificielle IA Générative : ChatGPT etc... Evaluation

Auteur(s) :

• Suhana Bedi • Hejie Cui • Miguel Fuentes • Alyssa Unell • Michael Wornow • Juan M. Banda • Nikesh Kotecha • Timothy Keyes • Yifan Mai • Mert Oez • Hao Qiu • Shrey Jain • Leonardo Schettini • Mehr Kashyap • Jason Alan Fries • Akshay Swaminathan • Philip Chung • Fateme Nateghi • Asad Aali • Ashwin Nayak • Shivam Vedak • Sneha S. Jain • Birju Patel • Oluseyi Fayanju • Shreya Shah • Ethan Goh • Dong-han Yao • Brian Soetikno • Eduardo Reis • Sergios Gatidis • Vasu Divi • Robson Capasso • Rachna Saralkar • Chia-Chun Chiang • Jenelle Jindal • Tho Pham • Faraz Ghoddusi • Steven Lin • Albert S. Chiou • Christy Hong • Mohana Roy • Michael F. Gensheimer • Hinesh Patel • Kevin Schulman • Dev Dash • Danton Char • Lance Downing • Francois Grolleau • Kameron Black • Bethel Mieso • Aydin Zahedivash • Wen-wai Yim • Harshita Sharma • Tony Lee • Hannah Kirsch • Jennifer Lee • Nerissa Ambers • Carlene Lugtu • Aditya Sharma • Bilal Mawji • Alex Alekseyev • Vicky Zhou • Vikas Kakkar • Jarrod Helzer • Anurang Revri • Yair Bannett • Roxana Daneshjou • Jonathan Chen • Emily Alsentzer • Keith Morse • Nirmal Ravi • Nima Aghaeepour • Vanessa Kennedy • Akshay Chaudhari • Thomas Wang • Sanmi Koyejo • Matthew P. Lungren • Eric Horvitz • Percy Liang • Mike Pfeffer • Nigam H. Shah*

Éditeur(s) :

Date de publication :12/06/2025

31 pages

EN BREF ...

Bien que les grands modèles de langage (LLM) atteignent des scores quasi-parfaits aux examens de licence médicale, ces évaluations ne reflètent pas adéquatement la complexité et la diversité de la pratique clinique réelle. Les benchmarks existants souffrent de trois limitations clés : des questions qui ne correspondent pas aux situations du monde réel, un usage limité des données réelles des dossiers de santé électroniques (DSE), et une diversité de tâches restreinte, se concentrant principalement sur les examens et les diagnostics. Environ 64% des évaluations de LLM en santé ignorent des opérations hospitalières essentielles comme les tâches administratives, la documentation clinique et la communication avec les patients. Pour combler ces lacunes, est introduit MedHELM (Holistic Evaluation of Large Language Models for Medical Tasks), un cadre d'évaluation extensible visant à évaluer la performance des LLM sur des tâches médicales concrètes. MedHELM se distingue par une taxonomie validée par des cliniciens, une suite complète de benchmarks couvrant l'ensemble de la taxonomie, et une comparaison systématique des LLM avec des méthodes d'évaluation améliorées et une analyse coût-performance. Ce cadre est conçu pour fournir des standards d'évaluation cohérents et réalistes pour l'application des LLM dans le domaine médical

Rédacteur(s) de la fiche :

SOMMAIRE
SYNTHÈSE

Introductio

1 - In tincidunt nunc ac velit tristique

Pellentesque congue, magna elementum suscipit vestibulum
Aenean eleifend sodales ipsum vitae consequat
Quisque est leo tempus vel purus eu, placerat tincidunt nisl

2 - Sed lobortis elit vitae mollis consectetur

In tincidunt nunc ac velit tristique
Donec accumsan elit ac ornare eleifend
Sed pellentesque suscipit quam ut finibus
Fusce imperdiet neque sit amet ipsum ullamcorper scelerisque

3 - Lorem ipsum dolor sit amet

Pellentesque congue, magna elementum suscipit vestibulum
Aenean eleifend sodales ipsum vitae consequat
Quisque est leo tempus vel purus eu, placerat tincidunt nisl

Conclusio

Accéder à :

L'ensemble de la veille e-santé sélectionnée
par la communauté Beesens,
Des documents de références de la e-santé,
Et bien plus encore...

VOIR TOUS NOS ABONNEMENTS

Déjà inscrit ? Identifiez-vous

Également accessible aux abonnés PREMIUM