Des IA médicales inventent des pathologies en consultation : le problème que personne ne veut chiffrer

Sujet: Des IA médicales inventent des pathologies en consultation : le problème que personne ne veut chiffrer
Date: 18 mai 2026

Plusieurs systèmes d'IA utilisés pour la prise de notes médicales en temps réel génèrent des diagnostics, symptômes ou antécédents qui n'ont jamais été mentionnés par le patient ni par le praticien. Le phénomène, documenté par des médecins américains depuis plusieurs mois, n'est toujours pas encadré par un protocole d'assurance qualité standardisé. Les éditeurs concernés parlent d'améliorations continues. Les dossiers patients, eux, contiennent déjà des erreurs.

Le scénario est simple. Un médecin reçoit un patient, active un assistant IA qui transcrit et résume la consultation en temps réel, puis retrouve dans le compte-rendu généré automatiquement une mention de douleur thoracique que le patient n'a jamais signalée. Ou un antécédent de diabète de type 2 sorti de nulle part. Ou une prescription d'un médicament qui n'a pas été évoqué.

Ce n'est pas un cas isolé repéré par un chercheur en labo. Des médecins généralistes et spécialistes aux États-Unis rapportent des hallucinations récurrentes dans les résumés produits par des outils comme Nuance DAX Copilot de Microsoft, Abridge ou Nabla — trois plateformes qui traitent aujourd'hui des millions de consultations. Des praticiens ont commencé à documenter publiquement les erreurs, photos d'écran à l'appui.

Le résumé plus confiant que le médecin

Le problème est structurel. Ces systèmes ne se contentent pas de transcrire. Ils interprètent, synthétisent, reformulent. Quand un patient dit « j'ai mal au ventre depuis quelques jours », l'IA peut décider d'enrichir la note avec un diagnostic différentiel plausible, ou inférer un lien avec un traitement mentionné trois consultations plus tôt — parfois à tort. Le modèle de langage fait ce pour quoi il est conçu : compléter une séquence de manière statistiquement vraisemblable. La vraisemblance médicale et la vérité clinique ne sont pas la même chose.

Un dermatologue du Massachusetts a raconté avoir trouvé dans un résumé généré par IA la mention d'une biopsie qu'il n'avait jamais réalisée. Le compte-rendu précisait le type de lésion, sa localisation, et recommandait un suivi. Tout était faux. Le patient n'avait consulté que pour un renouvellement d'ordonnance.

Microsoft, propriétaire de Nuance depuis son rachat à 19,7 milliards de dollars en 2022, indique que DAX Copilot est conçu pour être relu et validé par le praticien avant intégration au dossier. Abridge tient un discours identique : l'IA est un brouillon, le médecin reste responsable. En pratique, quand un généraliste enchaîne 25 à 30 consultations par jour et que l'outil est vendu pour lui faire gagner du temps, la relecture exhaustive est une fiction.

Pas de taux d'erreur publié

Aucun des trois éditeurs majeurs ne publie de taux d'hallucination mesuré sur des consultations réelles. Abridge revendique une précision de 99,7 % sur ses benchmarks internes. Ce chiffre, invérifiable, porte sur la fidélité de la transcription — pas sur l'exactitude clinique du résumé structuré qui en découle. La distinction est capitale et systématiquement esquivée dans la communication produit.

Nabla, la startup française fondée par Alexandre Lebrun, affirme que son modèle est spécifiquement entraîné pour minimiser les hallucinations médicales et qu'il surpasse GPT-4 sur ses propres évaluations. L'entreprise a levé 24 millions de dollars en 2024. Elle ne publie pas non plus de taux d'erreur issu de déploiements en conditions réelles.

La FDA ne régule pas ces outils. Ils sont classés comme aides administratives, pas comme dispositifs médicaux. Tant qu'ils ne posent pas formellement de diagnostic, ils échappent au processus d'approbation 510(k). Le fait qu'un résumé généré automatiquement puisse contenir un faux diagnostic inscrit dans le dossier permanent du patient ne change rien à cette classification.

Le dossier patient comme couche d'accumulation

C'est ici que le problème passe de l'anecdote clinique au risque systémique. Un faux antécédent inséré dans un dossier médical électronique (EHR) ne disparaît pas à la consultation suivante. Il devient une donnée d'entrée pour le prochain médecin, le prochain algorithme de triage, la prochaine décision de remboursement par un assureur. Une hallucination ponctuelle d'un LLM devient un fait médical persistant dès qu'elle est validée — même par inattention — dans Epic ou Cerner.

Des juristes spécialisés en responsabilité médicale américaine commencent à se poser la question de la traçabilité. Si un traitement est prescrit sur la base d'un antécédent fabriqué par une IA et non corrigé par le médecin, qui est responsable ? Le praticien, qui a signé la note ? L'éditeur, qui a généré le contenu ? L'hôpital, qui a déployé l'outil sans protocole de vérification ? Le droit américain n'a pas encore de réponse. Le droit européen, avec le AI Act qui classe les systèmes de santé en « haut risque », non plus — le texte est entré en vigueur mais les obligations de conformité ne s'appliquent pas avant août 2026.

Le bureau de l'AMA (American Medical Association) a publié en juin 2024 un ensemble de principes directeurs sur l'IA en médecine. Le document recommande que les systèmes de documentation clinique automatisée soient « transparents, explicables et vérifiables ». Il ne mentionne aucun seuil d'erreur acceptable.

14 secondes

C'est le temps moyen qu'un médecin passe à relire un résumé généré par IA avant de le valider, selon une étude observationnelle menée dans un réseau de cliniques du Midwest et présentée à un symposium d'informatique médicale fin 2024. L'échantillon était modeste — 40 praticiens sur trois mois — mais le chiffre est cohérent avec ce que rapportent des médecins sur des forums professionnels. Quatorze secondes pour un résumé de 300 à 500 mots contenant potentiellement des informations inventées.

Les éditeurs rétorquent que le gain de temps global — estimé entre 7 et 15 minutes par consultation selon les études sponsorisées — compense largement le coût de la relecture. Le calcul tient si la relecture est effectivement faite. Les mêmes éditeurs conçoivent des interfaces où le bouton « Valider et signer » est à un clic du résumé affiché.

En France, la Haute Autorité de Santé n'a publié aucune recommandation spécifique sur l'usage de LLM pour la documentation clinique. Le Collège de la Médecine Générale n'a pas pris position. Les éditeurs de logiciels de gestion de cabinet français — Doctolib, Cegedim, CompuGroup — intègrent ou testent des modules IA. Doctolib a lancé un assistant de prise de notes en 2024, basé sur un modèle propriétaire dont l'architecture n'a pas été détaillée publiquement.

Un médecin urgentiste parisien, interrogé dans un groupe de travail hospitalier sur le sujet, résumait la situation :

« On nous vend un outil pour ne plus perdre de temps à écrire. Très bien. Mais maintenant je perds du temps à vérifier que l'outil n'a pas écrit n'importe quoi. Et quand je ne vérifie pas, je signe un document que je n'ai pas rédigé. »

TL;DR

Les assistants IA de documentation médicale fabriquent des diagnostics, des symptômes et des antécédents jamais évoqués en consultation — et ces erreurs finissent dans les dossiers patients permanents.

Des médecins américains documentent des hallucinations récurrentes dans les résumés générés par Nuance DAX, Abridge et Nabla, incluant de faux diagnostics et des examens jamais réalisés.
Aucun éditeur ne publie de taux d'hallucination mesuré en conditions réelles ; la FDA ne régule pas ces outils, classés comme aides administratives et non comme dispositifs médicaux.
Le temps moyen de relecture par le praticien avant validation est estimé à 14 secondes — une fausse information validée devient un fait médical persistant dans le dossier électronique du patient.

Questions fréquentes

Comment une hallucination d'IA peut-elle se retrouver inscrite dans un dossier médical officiel?

Les systèmes de documentation IA génèrent un résumé structuré que le médecin valide d'un clic avant intégration dans le dossier électronique (EHR). Si le praticien ne repère pas l'erreur lors de la relecture — ce qui arrive fréquemment vu le temps réel consacré à cette vérification — le contenu fabriqué devient une donnée médicale permanente, consultable par tout soignant ultérieur.

Pourquoi la FDA ou les autorités européennes n'encadrent-elles pas ces outils?

Aux États-Unis, ces systèmes sont classés comme outils administratifs d'aide à la documentation, pas comme dispositifs médicaux posant un diagnostic. Ils échappent donc à l'approbation 510(k). En Europe, le AI Act classe la santé en catégorie haut risque mais les obligations de conformité ne seront applicables qu'à partir d'août 2026.

Les hôpitaux et cliniques françaises sont-ils concernés?

Oui. Plusieurs éditeurs français intègrent ou testent des modules de prise de notes par IA, dont Doctolib avec un assistant lancé en 2024. La HAS et le Collège de la Médecine Générale n'ont publié aucune recommandation spécifique sur le sujet. Le risque d'hallucination existe dès qu'un LLM synthétise une consultation au lieu de simplement la transcrire.

Article rédigé par Hamadi Lanouar