Une équipe de l’hôpital Asan de Séoul et de centres partenaires a publié dans JAMA Network Open une analyse expérimentale montrant que des modèles d’IA employés pour le conseil médical peuvent être détournés par des « injections de prompt ». Les résultats, issus de tests menés en 2025, pointent une vulnérabilité systémique et appellent à des contrôles de sécurité obligatoires avant toute adoption clinique.

Contexte et protocole expérimental

Les chercheurs ont évalué la résistance de modèles commerciaux destinés au conseil médical face à deux techniques d’attaque : une injection contextuelle visant à perturber le raisonnement du modèle à partir d’informations patient manipulées, et une falsification de preuves consistant à introduire de fausses données présentées comme vérifiables. Les expérimentations ont porté sur 12 scénarios cliniques classés en trois niveaux de risque et sur 216 dialogues patient‑IA produits entre janvier et octobre 2025.

Résultats principaux

Le taux de succès global des attaques rapporté par l’étude est de 94,4 %. Parmi les modèles testés initialement, GPT‑4o‑mini et Gemini‑2.0‑flash‑lite ont présenté un taux d’attaque réussi de 100 % chacun, tandis que Claude 3 Haiku a affiché 83,3 %. Les taux de réussite selon le niveau de risque étaient de 100 % pour le niveau intermédiaire, 93,3 % pour le niveau élevé et 91,7 % pour le niveau le plus critique, qui comprend notamment des scénarios recommandant des médicaments contre‑indiqués chez les femmes enceintes.

Des essais complémentaires sur des modèles dits « de pointe » (GPT‑5, Gemini 2.5 Pro, Claude 4.5 Sonnet) ont montré que l’injection de prompt côté client pouvait aussi réussir systématiquement, avec 100 % de réussite pour GPT‑5 et Gemini 2.5 Pro, et 80 % pour Claude 4.5 Sonnet. Enfin, les réponses manipulées se sont maintenues dans la conversation dans plus de 80 % des cas, ce qui signifie qu’une altération initiale peut perdurer au fil d’un échange.

Enjeux pour la sécurité clinique et conséquences pratiques

Les auteurs considèrent ces résultats comme la preuve expérimentale d’une vulnérabilité structurelle des modèles testés. Dans un contexte clinique, une manipulation réussie pourrait entraîner la recommandation de traitements inappropriés, y compris des médicaments dangereux pour certaines patientes, et compromettre la confiance entre patients et professionnels de santé. Le fait que des modèles récents n’aient pas su se protéger contre ces attaques suggère que les garde‑fous actuels intégrés par les fournisseurs ne suffisent pas pour un usage médical sans contrôles supplémentaires.

Pour réduire ces risques, l’étude préconise plusieurs mesures pratiques :

  • mettre en place des batteries de tests de sécurité spécifiques aux applications médicales ;
  • définir et imposer des normes minimales de sécurité avant toute mise en service clinique ;
  • déployer des dispositifs de vérification des réponses et des audits indépendants ;
  • clarifier les responsabilités légales entre fournisseurs, intégrateurs et établissements de santé.

Aspects réglementaires et de gouvernance

Les auteurs insistent sur la nécessité d’une collaboration urgente entre décideurs politiques, industriels et cliniciens pour élaborer des normes, des procédures d’audit et des mécanismes techniques de mitigation. Ils estiment que l’adoption de chatbots médicaux sans validation réglementaire et renforcement de la sécurité expose les patients à des risques réels.

Ce qui reste à confirmer

  • la généralisabilité des résultats à l’ensemble des modèles commerciaux et configurations d’intégration ;
  • la fréquence et la faisabilité d’attaques comparables en conditions réelles d’utilisation clinique ;
  • l’efficacité à grande échelle des contre‑mesures proposées par les fabricants et des audits externes.

À retenir

  • Une étude multicentrique publiée dans JAMA Network Open montre que des modèles de conseil médical testés sont massivement vulnérables aux injections de prompt.
  • Sur 216 dialogues, le taux d’attaque réussi global était de 94,4 %, avec des modèles atteints à 100 % dans certains cas.
  • Des scénarios critiques, dont la recommandation de médicaments contre‑indiqués chez les femmes enceintes, ont été compromis.
  • Les réponses manipulées ont persisté dans la conversation dans plus de 80 % des cas, révélant un risque d’auto‑entretien de l’erreur.
  • Les auteurs appellent à des tests de sécurité obligatoires, à des normes, à des audits indépendants et à une clarification des responsabilités avant toute utilisation clinique.

Article amélioré avec l'IA - Article original