Dans le paysage en évolution rapide de l'intelligence artificielle, le mantra « plus c'est gros, mieux c'est » a largement dominé le récit, alimenté par le succès de modèles transformeurs massifs comme GPT et DINO. Cependant, dans le domaine à enjeux élevés de l'imagerie médicale, une nouvelle percée suggère que l'efficacité stratégique et l'expertise du domaine pourraient s'avérer plus précieuses que la simple échelle de calcul. Une équipe de recherche dirigée par Pedro M. Gordaliza, Jaume Banus et Benoît Gérin a démontré que des modèles compacts et spécialisés peuvent non seulement rivaliser avec leurs homologues plus grands, mais aussi les surpasser de manière significative dans la tâche complexe de l'analyse d'IRM cérébrale en 3D.
L'essor des modèles de fondation pour l'IRM cérébrale
Les modèles de fondation (FM) représentent un changement de paradigme dans l'intelligence artificielle. Contrairement aux modèles traditionnels entraînés pour une tâche spécifique unique, les modèles de fondation sont pré-entraînés sur de vastes ensembles de données non étiquetées à l'aide de l'apprentissage auto-supervisé (SSL), ce qui leur permet d'être affinés pour une grande variété d'applications en aval avec un minimum de données étiquetées. Bien que ces modèles aient révolutionné le traitement du langage naturel et la vision par ordinateur en 2D, leur application à l'imagerie médicale 3D — spécifiquement à la neuroimagerie — est restée un défi de taille. La complexité anatomique du cerveau, couplée à la nature multidimensionnelle des données IRM volumétriques et à la variabilité des protocoles d'acquisition, crée un goulot d'étranglement unique pour les architectures d'IA standard.
Pour lever ces obstacles, la communauté de l'imagerie médicale a mis en place deux compétitions marquantes lors de la conférence MICCAI 2025 : le Self-Supervised Learning for 3D Medical Imaging Challenge (SSL3D) et le Foundation Model Challenge for Brain MRI (FOMO25). Ces concours ont servi de premiers bancs d'essai rigoureux et standardisés pour évaluer la capacité des modèles de fondation à se généraliser à travers des ensembles de données cliniques hétérogènes. Le défi SSL3D a lui seul compilé un ensemble de données sans précédent de plus de 114 000 volumes 3D provenant de 34 191 sujets, couvrant 800 ensembles de données différents. C'est dans cette arène compétitive que l'équipe de recherche, représentant des institutions telles que le Centre hospitalier universitaire vaudois (CHUV), l'Université de Lausanne (UNIL) et le Centre d'imagerie biomédicale (CIBM), a décroché les premières places en utilisant une approche étonnamment économe.
Petite IA contre Transformers massifs
L'une des conclusions les plus frappantes de la réussite des chercheurs est la domination continue des réseaux de neurones convolutifs (CNN), en particulier l'architecture U-Net, sur les modèles basés sur les Transformers, actuellement très en vogue. Dans les défis FOMO25 et SSL3D, aucune des soumissions basées sur les Transformers n'a réussi à égaler les performances de la méthode CNN gagnante. Cette disparité met en évidence une limitation technique critique : les Transformers, bien que puissants dans les tâches 2D ou textuelles, souffrent d'une complexité quadratique lors du traitement du nombre massif de tokens générés par la tokenisation volumétrique 3D. Cela crée un goulot d'étranglement informatique qui limite la résolution spatiale et le contexte que ces modèles peuvent gérer efficacement.
Le modèle de l'équipe de recherche a atteint ses performances de premier plan tout en étant environ 10 fois plus petit que les approches concurrentes basées sur les Transformers, telles que le ViT-L DINOv2 3D. Alors que les modèles plus grands affichent souvent des centaines de millions de paramètres, l'architecture gagnante basée sur les CNN n'en utilisait que 20 millions. Malgré cette empreinte plus faible, l'équipe a rapporté un score de Dice moyen supérieur de 2,5 % pour les tâches de segmentation et une augmentation de 8 % de la précision pour les tâches de classification par rapport aux rivaux basés sur les Transformers. Cela suggère que la « leçon amère » de l'IA — selon laquelle les méthodes générales finissent par l'emporter grâce à l'échelle — ne s'applique peut-être pas encore au monde complexe et aux ressources limitées de l'imagerie médicale 3D.
Le pouvoir de la connaissance du domaine
Le secret du succès de l'équipe réside dans l'intégration de connaissances anatomiques a priori et de l'expertise du domaine de la neuroimagerie dans l'architecture du modèle. Au lieu de traiter les volumes 3D comme des points de données génériques, Gordaliza, Banus et Gérin ont conçu leur système pour démêler les structures anatomiques invariantes par rapport au sujet des caractéristiques pathologiques spécifiques au contraste. En forçant le modèle à reconnaître que certaines caractéristiques anatomiques restent cohérentes à travers différents contrastes d'IRM (comme les images pondérées en T1 ou T2) et différents moments dans le temps, ils ont fourni au réseau de neurones un « biais inductif » qui l'empêche d'apprendre des corrélations fallacieuses ou de prendre des raccourcis de calcul.
Pour le défi SSL3D, les chercheurs ont partitionné les représentations apprises en deux composantes distinctes : l'une contrainte pour correspondre aux segmentations anatomiques sur toutes les images d'un même sujet, et l'autre optimisée pour détecter la pathologie. Dans le volet FOMO25, ils ont mis en œuvre un objectif de reconstruction cross-contraste, en échangeant les représentations entre différents scans d'un même sujet pendant le pré-entraînement. Ce guidage spécifique au domaine a permis au modèle de se concentrer sur ce qui compte réellement dans un contexte clinique — la réalité biologique sous-jacente — plutôt que de se perdre dans le bruit des différents fabricants de scanners ou des paramètres d'acquisition.
Bancs d'essai de vitesse et d'efficacité
Les implications pratiques de cette recherche vont au-delà des scores de précision ; les gains d'efficacité sont tout aussi transformateurs. L'équipe a rapporté que ses modèles s'entraînaient un à deux ordres de grandeur plus rapidement que les alternatives Transformers. Dans le défi FOMO25, le modèle CNN a nécessité moins de 36 heures-GPU pour le pré-entraînement, contre 100 à 1 000 heures pour les modèles Transformers plus grands. Cette réduction du temps d'entraînement non seulement accélère le rythme de la recherche, mais réduit également de manière significative l'empreinte carbone associée au développement d'IA médicales de pointe.
De plus, cette approche privilégiant l'efficacité démocratise l'accès aux modèles de fondation. Alors que les modèles massifs de 7 milliards de paramètres comme DINOv3 nécessitent des grappes de serveurs de calcul à l'échelle industrielle, le modèle de 20 millions de paramètres de l'équipe peut être entraîné et affiné sur du matériel accessible à de plus petites institutions de recherche et aux hôpitaux. Cette accessibilité est vitale pour le déploiement clinique de l'IA, où les modèles doivent souvent être adaptés aux contraintes matérielles locales et à des populations de patients spécifiques sans nécessiter de fermes de serveurs massives.
Science ouverte et implications futures
Dans un engagement envers la science ouverte, les chercheurs ont mis leurs modèles gagnants et leur code à disposition via GitHub à l'adresse jbanusco/BrainFM4Challenges. En partageant ces outils, ils visent à fournir un point de départ robuste sur lequel d'autres chercheurs pourront s'appuyer, accélérant potentiellement le développement de ce que certains appellent « l'intelligence artificielle générale (AGI) pour la santé ». Le travail de l'équipe souligne une prise de conscience croissante dans le domaine : la voie vers une IA médicale universelle ne passera peut-être pas par davantage de paramètres, mais par une exploitation plus intelligente et plus raisonnée des connaissances médicales existantes.
À l'avenir, le succès de ces modèles compacts soulève des questions importantes sur la trajectoire future de l'IA en médecine. S'il reste à voir si les Transformers finiront par surmonter leurs limites actuelles avec des ensembles de données encore plus vastes ou des mécanismes d'attention plus efficaces, les leçons de MICCAI 2025 sont claires. Pour l'instant, le moyen le plus efficace d'analyser le cerveau humain est de construire une IA qui « comprend » la structure du cerveau dès sa conception. À mesure que le domaine s'oriente vers des modèles plus généralisables, l'intégration des trajectoires longitudinales, des contrastes complémentaires et des connaissances anatomiques a priori restera probablement la référence pour le développement de l'IA clinique.
Comments
No comments yet. Be the first!