Des équipes de l'Université de Californie à Berkeley et de l'UCSF ont rendu public Pillar‑0, un modèle d'intelligence artificielle conçu pour interpréter directement des volumes d'imagerie médicale 3D (CT et MRI). Sa particularité : traiter l'ensemble du volume au lieu d'analyser des coupes 2D successives, ce qui ouvre la voie à la détection simultanée de centaines de maladies à partir d'un seul examen.

Contexte et architecture

Pillar‑0 repose sur une nouvelle architecture dite « Atlas » qui vise à rendre le traitement des volumes 3D à la fois plus rapide et moins coûteux en ressources d'entraînement. Selon les équipes, cette architecture accélère le traitement des CT abdominaux jusqu'à 150 fois par rapport à des vision‑transformers classiques et réduit significativement le coût d'entraînement. Le projet est présenté comme un « backbone » générique, destiné à être adapté à différents problèmes cliniques par la suite.

Performances et validations publiées

Les validations rapportées portent sur jeux de données thoraciques, abdominaux et cérébraux. Pillar‑0 atteindrait une AUC moyenne de 0,87 sur plus de 350 tâches diagnostiques, chiffre supérieur aux scores mentionnés pour d'autres modèles ouverts : MedGemma (0,76), MI2 (0,75) et Lingshu (0,70). Les auteurs indiquent également une amélioration globale de plus de 10 % sur 366 tâches comparées aux modèles publics évalués.

  • Fine‑tuning : Pillar‑0, affiné pour la prédiction du cancer du poumon, dépasserait Sybil‑1 de plus de 7 %.
  • Robustesse d'échantillonnage : pour la détection d'hémorragies cérébrales, Pillar‑0 atteindrait des performances de l'état de l'art en n'utilisant que 25 % des données d'entraînement habituellement nécessaires.

En complément des modèles, les équipes publient « RaTE » (Radiology Task Evaluation), un cadre d'évaluation centré sur des tâches cliniquement pertinentes plutôt que sur des questions artificielles 2D, et elles partagent code, modèles et pipelines sur Hugging Face.

Quels impacts pour la pratique clinique et le marché ?

Pillar‑0 illustre plusieurs évolutions importantes pour l'IA médicale : passage d'outils spécialisés à des socles techniques polyvalents, exploitation native de volumes 3D et priorité à la transparence via l'open source. Ces caractéristiques peuvent avoir plusieurs conséquences :

  • Gain de productivité potentiellement élevé pour la lecture d'examens volumineux, notamment face à l'augmentation mondiale du nombre de CT et MRI.
  • Possibilité d'étendre un même modèle à de nombreuses tâches cliniques, ce qui peut réduire le besoin de développer et maintenir des modèles distincts par pathologie.
  • Facilitation de la recherche collaborative et de la validation multi‑centrique grâce à l'accès au code et aux pipelines.

Aspects de sécurité, déploiement et gouvernance

L'ouverture du code et des modèles vise à renforcer la transparence et à encourager des validations indépendantes. Toutefois, le passage d'une démonstration de recherche à un usage clinique opérationnel suppose des étapes supplémentaires : tests multi‑centriques, adaptation aux flux locaux, intégration aux systèmes d'information hospitaliers et conformité aux exigences réglementaires applicables dans chaque pays.

Ce qui reste à confirmer

Plusieurs points importants ne peuvent pas être entièrement établis à partir des éléments publiés et devront faire l'objet de confirmations : ainsi, la généralisation des performances rapportées à des populations et à des protocoles d'imagerie différents, la robustesse en conditions cliniques réelles, les modalités exactes d'intégration dans les parcours de soins et les preuves cliniques d'impact sur le diagnostic et la prise en charge. De même, les comparaisons de performance avec des solutions industrielles doivent être interprétées à la lumière des jeux de données et des protocoles d'évaluation utilisés.

À retenir

  • Pillar‑0 est un modèle 3D open source développé par UC Berkeley et UCSF, conçu pour analyser directement des volumes CT et MRI.
  • Son architecture « Atlas » promet des gains significatifs de vitesse et une réduction des coûts d'entraînement pour l'analyse volumique.
  • Performances rapportées : AUC moyenne 0,87 sur >350 tâches, supérieures aux modèles MedGemma, MI2 et Lingshu selon les auteurs.
  • Le projet inclut le cadre d'évaluation clinique « RaTE » et la publication du code, des modèles et des pipelines sur Hugging Face.
  • Des validations multi‑centriques, des tests en contexte clinique et des évaluations réglementaires restent nécessaires avant déploiement opérationnel.

Article amélioré avec l'IA - Article original