Étude et rapport

Fidelity of Medical Reasoning in Large Language Models

GRATUIT

Auteur(s) :

Suhana Bedi, Yixing Jiang, Philip Chung, Sanmi Koyejo, Nigam Shah

Éditeur(s) :

JAMA Network Open

Date de publication :28/08/2025

1 pages

EN BREF ...

Cette étude transversale examine si les grands modèles de langage (LLMs) raisonnent véritablement à travers les problèmes médicaux ou s'ils exploitent simplement des patterns statistiques. Les chercheurs ont testé 6 modèles d'IA (DeepSeek-R1, o3-mini, Claude-3.5 Sonnet, Gemini-2.0-Flash, GPT-4o, et Llama-3.3-70B) sur 68 questions du benchmark médical MedQA, en remplaçant la bonne réponse par "None of the other answers" (NOTA). Les résultats révèlent que tous les modèles ont montré des baisses de précision significatives allant de 8,82% à 38,24%, suggérant une dépendance à la reconnaissance de patterns plutôt qu'au raisonnement clinique authentique. L'étude conclut que ces systèmes sont plus fragiles que leurs scores de benchmark ne le suggèrent et recommande de limiter leur utilisation clinique à des rôles non autonomes avec supervision humaine.

Rédacteur(s) de la fiche :


Introductio

1 - In tincidunt nunc ac velit tristique

  • Pellentesque congue, magna elementum suscipit vestibulum
  • Aenean eleifend sodales ipsum vitae consequat
  • Quisque est leo tempus vel purus eu, placerat tincidunt nisl

2 - Sed lobortis elit vitae mollis consectetur

  • In tincidunt nunc ac velit tristique
  • Donec accumsan elit ac ornare eleifend
  • Sed pellentesque suscipit quam ut finibus
  • Fusce imperdiet neque sit amet ipsum ullamcorper scelerisque

3 - Lorem ipsum dolor sit amet

  • Pellentesque congue, magna elementum suscipit vestibulum
  • Aenean eleifend sodales ipsum vitae consequat
  • Quisque est leo tempus vel purus eu, placerat tincidunt nisl

Conclusio

Abonnements Beesens

Accéder à :

  • L'ensemble de la veille e-santé sélectionnée
    par la communauté Beesens,
  • Des documents de références de la e-santé,
  • Et bien plus encore...
JE M'INSCRIS GRATUITEMENT VOIR TOUS NOS ABONNEMENTS

Déjà inscrit ? Identifiez-vous

Également accessible aux abonnés PREMIUM