Analyse comparative du raisonnement professionnel : Gemini 3 et GPT-5.2 dominent la performance des agents IA complexes

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Un nouveau benchmark intitulé APEX-Agents a été publié pour évaluer l'efficacité avec laquelle les agents d'IA peuvent exécuter des tâches à long terme et multi-applications, typiquement réalisées par des banquiers d'investissement et des avocats d'affaires. L'étude révèle que si les modèles à haut raisonnement comme Gemini 3 Flash et GPT-5.2 réalisent des progrès significatifs, la complexité des environnements professionnels réels représente encore un défi de taille pour les systèmes autonomes.

Le paysage de l'intelligence artificielle connaît une mutation fondamentale, passant de modèles conversationnels passifs à des « agents » autonomes capables d'exécuter des flux de travail complexes et multi-étapes. À mesure que ces systèmes se rapprochent d'une intégration dans des environnements professionnels à enjeux élevés, le besoin d'une évaluation rigoureuse et spécifique au domaine n'a jamais été aussi critique. Les chercheurs Bertie Vidgen, Austin Mann et Abby Fennelly ont comblé cette lacune en introduisant l'AI Productivity Index for Agents (APEX-Agents), un nouveau benchmark conçu pour mesurer l'efficacité de l'IA dans des tâches traditionnellement réservées aux analystes en banque d'investissement, aux consultants en gestion et aux avocats d'affaires.

Transition des chatbots vers les agents autonomes

Au cours des dernières années, l'étalon-or pour la performance des grands modèles de langage (LLM) reposait sur des benchmarks mesurant le raisonnement statique ou la récupération de connaissances générales. Cependant, alors que l'industrie pivote vers des flux de travail agentiques — où l'on attend de l'IA qu'elle navigue dans des systèmes de fichiers, utilise des logiciels et exécute des séquences d'actions sur de longues périodes — les mesures traditionnelles se sont révélées insuffisantes. Le benchmark APEX-Agents représente une rupture avec ces simples interfaces de chat, se concentrant plutôt sur des tâches « à horizon long » qui nécessitent une gestion d'état persistante et une coordination inter-applications.

L'équipe de recherche a identifié trois piliers centraux des services professionnels : la banque d'investissement, le conseil et le droit. Ces domaines ont été sélectionnés parce qu'ils exigent des niveaux de précision élevés, une capacité à synthétiser des données provenant de multiples sources (telles que des feuilles de calcul, des PDF et des bases de données internes) et l'aptitude à suivre des instructions complexes en plusieurs étapes. En déplaçant l'attention vers ces secteurs cognitifs à haute valeur ajoutée, APEX-Agents offre un reflet plus précis de l'impact potentiel de l'IA sur la main-d'œuvre moderne que les benchmarks généralistes.

La méthodologie du raisonnement professionnel

La complexité d'APEX-Agents réside dans son exigence d'exécution à « horizon long ». Contrairement à une instruction standard demandant le résumé d'un document, une tâche au sein de ce benchmark pourrait exiger d'un agent qu'il analyse un contrat d'acquisition, recoupe des clauses spécifiques avec un modèle financier sous Excel, puis rédige un mémorandum formel dans un traitement de texte. Ces tâches ne sont pas effectuées en vase clos ; le benchmark fournit un environnement de travail réaliste comprenant des systèmes de fichiers structurés et des outils logiciels de qualité professionnelle.

Pour garantir la fiabilité des résultats, les chercheurs ont utilisé la métrique Pass@1. Cette méthode de notation rigoureuse exige que l'agent termine la tâche correctement dès sa première tentative, reflétant les attentes d'un environnement professionnel où une supervision constante ou de multiples essais annuleraient les gains de productivité liés à l'utilisation d'une IA. Le benchmark se compose de 480 tâches distinctes (n=480), chacune accompagnée d'une grille d'évaluation détaillée et de « sorties de référence » — les bonnes réponses vérifiées par des humains utilisées pour noter la performance de l'IA.

Analyse de performance : une nouvelle hiérarchie de l'intelligence

Les résultats de la phase de test initiale révèlent une hiérarchie claire parmi les modèles les plus avancés de l'industrie. Selon les données, Gemini 3 Flash (Thinking=High) s'est imposé comme le plus performant, atteignant un score Pass@1 de 24,0 %. Il est suivi de près par GPT-5.2 (Thinking=High) et Claude Opus 4.5 (Thinking=High). Gemini 3 Pro (Thinking=High) complète également le niveau supérieur du classement. Ces résultats sont particulièrement notables car ils soulignent l'efficacité des modes de « pensée » ou de « raisonnement » — des configurations où le modèle bénéficie d'un temps de calcul supplémentaire pour traiter sa logique interne avant de générer une action externe.

Le succès des variantes « Thinking=High » à travers toutes les grandes familles de modèles — Gemini de Google, GPT d'OpenAI et Claude d'Anthropic — suggère que la capacité à s'autocorriger et à planifier de manière interne est le principal facteur de différenciation pour les tâches de niveau professionnel. Cependant, même le score le plus élevé de 24,0 % sert de rappel à la réalité concernant l'état actuel de l'art. Bien que ces modèles fassent des progrès significatifs en matière de raisonnement, près des trois quarts des tâches professionnelles du benchmark sont restées hors de leur portée, souvent en raison d'échecs dans l'intégration des outils ou de l'accumulation de petites erreurs au fil d'une exécution à long terme.

Ouvrir les standards professionnels : Archipelago

Une contribution significative de cette recherche est l'engagement envers la transparence et la reproductibilité. Parallèlement au benchmark lui-même, Vidgen, Mann et Fennelly ont publié en open source Archipelago, une infrastructure spécifiquement conçue pour l'exécution et l'évaluation d'agents. Archipelago permet à d'autres chercheurs de connecter différents modèles et de les tester face aux mêmes scénarios professionnels, offrant un « bac à sable » standardisé qui simule un poste de travail réel.

En publiant les instructions, les grilles d'évaluation, les sorties de référence et les métadonnées, les chercheurs ont créé un outil public pour la communauté de l'IA. Cette approche open source vise à prévenir la « saturation des benchmarks », où les modèles sont par inadvertance entraînés sur les données de test. La granularité des métadonnées d'APEX-Agents — qui suit non seulement si un modèle a réussi, mais aussi à quel moment de la séquence d'actions il a échoué — fournit aux développeurs une feuille de route pour améliorer la persistance agentique et la précision de l'utilisation des outils.

Les implications pour le travail en entreprise

Les implications des conclusions d'APEX-Agents pour le secteur des services professionnels sont multiples. D'une part, la capacité de Gemini 3 et de GPT-5.2 à naviguer dans des fichiers juridiques et financiers complexes marque une étape importante dans les capacités de l'IA. D'autre part, les faibles taux de réussite absolue suggèrent que l'IA est actuellement mieux adaptée au rôle d'assistant sophistiqué qu'à celui de remplaçant complet des analystes humains. La « fragilité » des agents — leur tendance à échouer face à un comportement logiciel inattendu ou à des instructions ambiguës — reste le principal obstacle à une adoption généralisée.

Pour les cabinets de banque d'investissement et de droit, le benchmark fournit un cadre pour les décisions « Build vs. Buy » (construire ou acheter). Il suggère que si les modèles généralistes deviennent plus performants, l'écart entre le raisonnement général et l'exécution spécifique à un domaine est encore vaste. Les organisations pourraient devoir investir massivement dans des surcouches (« wrappers ») spécialisées ou dans le réglage fin (fine-tuning) pour amener ces modèles aux niveaux de précision de 90 % ou 95 % requis pour un travail autonome face aux clients.

Directions futures : la voie vers les 100 %

À l'avenir, les chercheurs indiquent que la prochaine frontière pour APEX-Agents consistera à élargir la diversité des outils professionnels et à augmenter encore la durée des tâches. À mesure que les entreprises d'IA publient des modèles dotés de fenêtres de contexte encore plus grandes et de chaînes de raisonnement interne plus sophistiquées, le benchmark servira de « test de résistance » persistant pour l'industrie. L'objectif est de faire passer le curseur du taux de réussite actuel de 24,0 % vers un niveau de fiabilité égalant la production humaine.

En fin de compte, APEX-Agents établit une nouvelle base de référence pour ce que signifie être « productif » pour une IA. Il déplace la conversation au-delà de la nouveauté d'une interface de chat pour entrer dans les aspects pratiques du travail professionnel. Alors que les agents autonomes continuent d'évoluer, les métriques fournies par Vidgen, Mann et Fennelly resteront probablement un étalon critique pour mesurer la transition d'une IA qui parle à une IA qui travaille.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Qu'est-ce que le benchmark APEX-Agents ?
A Le benchmark APEX-Agents, ou AI Productivity Index for Agents, évalue la performance des agents d'IA sur des tâches complexes, à long horizon et multi-applications dans des services professionnels tels que la banque d'investissement, le conseil en gestion et le droit des affaires.[1][2] Il comprend 480 tâches réparties dans 33 « mondes » simulés avec divers fichiers et outils (par exemple, Calendrier, Mail, Tableurs), utilisant le Pass@1 comme métrique principale pour le succès d'une seule exécution basée sur des rubriques d'experts.[1] Développé par Mercor, il met en évidence les lacunes en matière de cohérence et de capacité des agents par rapport aux professionnels humains.[2][3]
Q Comment GPT-5 se compare-t-il à Gemini 3 en matière de raisonnement professionnel ?
A Gemini 3 Pro surpasse GPT-5 sur les benchmarks de raisonnement professionnel comme GPQA Diamond (91,9 % contre 85,7 % pour GPT-5 avec réflexion), s'imposant comme le leader du raisonnement pur et des tâches scientifiques.[1][2] GPT-5 reste compétitif, notamment avec les outils (89,4 %) et le raisonnement adaptatif, mais accuse un retard sur les problèmes inédits et complexes tels que Humanity's Last Exam, où Gemini 3 obtient un score de 37,5 %.[1] Des modèles ultérieurs comme GPT-5.2 surpassent légèrement Gemini 3 Pro sur GPQA Diamond avec 92,4 %, bien que la requête se concentre sur GPT-5.[4]
Q Les agents d'IA peuvent-ils exécuter des tâches multi-applications à long horizon ?
A Oui, les agents d'IA peuvent exécuter des tâches multi-applications à long horizon, comme le démontrent des frameworks tels que MUSE, qui atteint des performances de pointe sur le benchmark TAC impliquant des tâches dépassant 40 à 100 étapes d'action à travers plusieurs applications en utilisant un modèle léger Gemini-2.5 Flash.[1] Des benchmarks tels que APEX-Agents évaluent spécifiquement les agents d'IA sur des tâches de services professionnels à long horizon et multi-applications,[8] tandis que SWE-Bench Pro teste les capacités dans des scénarios complexes de génie logiciel nécessitant un raisonnement multi-fichiers.[3] Les progrès en cours, y compris les améliorations exponentielles de la longueur d'exécution des tâches (doublant tous les 7 mois), indiquent une compétence croissante, bien que des lacunes substantielles subsistent en matière de fiabilité dans le monde réel.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!