AI GameStore : un nouveau cadre pour l'évaluation de l'AGI

Breaking News Technology
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
Alors que les modèles d'intelligence artificielle saturent les bancs d'essai traditionnels, les chercheurs se tournent vers un terrain d'expérimentation plus dynamique : la vaste bibliothèque évolutive de jeux conçus pour le divertissement humain. Le cadre « AI GameStore » vise à mesurer l'intelligence générale réelle en testant les modèles à travers le « Multivers des jeux humains » disponible sur des plateformes comme Steam et l'App Store d'Apple.

La quête de l'intelligence artificielle générale (IAG) a atteint un goulot d'étranglement critique alors que les méthodes d'évaluation traditionnelles ne parviennent pas à suivre le rythme de l'évolution rapide des capacités des modèles. Pour y remédier, des chercheurs, dont José Hernández-Orallo, Joshua B. Tenenbaum et Samuel J. Gershman, ont introduit l'AI GameStore, un cadre évolutif qui teste l'intelligence des machines par rapport au « Multivers des jeux humains ». En s'appuyant sur des titres provenant de plateformes telles que Steam et l'Apple App Store, cette plateforme ouverte offre un environnement plus rigoureux et dynamique que les benchmarks statiques, mesurant la capacité d'un agent à apprendre et à s'adapter à travers diverses expériences humaines.

La saturation des bancs d'essai d'IA conventionnels

Les benchmarks d'IA conventionnels évaluent généralement des capacités limitées et saturent rapidement à mesure que les développeurs optimisent les modèles pour des paramètres de test spécifiques. Les évaluations traditionnelles sont souvent statiques, ce qui signifie que les modèles peuvent finir par « mémoriser » ou sur-apprendre les données, conduisant à des scores gonflés qui ne reflètent pas une véritable intelligence générale. Ce phénomène crée un faux sentiment de progrès où les modèles semblent très performants dans des cadres contrôlés, mais échouent face à une complexité réelle et inédite.

Les environnements statiques manquent de l'ouverture nécessaire pour simuler la nature imprévisible de la vie humaine. Lorsqu'un benchmark reste inchangé pendant des années, il cesse d'être une mesure de la généralisation pour devenir une mesure d'optimisation spécialisée. L'équipe de recherche soutient que pour qu'une machine démontre une IAG, elle doit faire preuve de compétence dans des environnements qu'elle n'a jamais vus auparavant, ce qui nécessite une transition des ensembles de données fixes vers une vaste bibliothèque évolutive de défis interactifs.

Qu'est-ce que l'AI GameStore et comment fonctionne-t-il ?

L'AI GameStore est une plateforme évolutive et ouverte permettant d'évaluer l'intelligence générale des machines à l'aide de jeux humains, c'est-à-dire des jeux conçus par des humains pour des humains. Elle fonctionne en utilisant des grands modèles de langage (LLM) avec des humains dans la boucle pour synthétiser de nouveaux jeux représentatifs, en sourçant et en adaptant automatiquement des variantes standardisées et conteneurisées provenant de plateformes populaires comme l'Apple App Store et Steam.

Le système fonctionne en identifiant diverses mécaniques de jeu et en les traduisant dans des environnements avec lesquels les modèles vision-langage (VLM) peuvent interagir. En utilisant une approche avec « humain dans la boucle », les chercheurs s'assurent que les jeux générés conservent l'essence qualitative du divertissement humain tout en restant accessibles sur le plan informatique pour les agents d'IA. Ce processus permet la génération rapide de jeux humains représentatifs, créant un terrain d'essai aussi vaste que l'imagination humaine elle-même.

Définir le Multivers des jeux humains

Le « Multivers des jeux humains » représente la somme totale de tous les jeux créés par des personnes pour être appréciés par des personnes, servant de substitut à la diversité cognitive humaine. Contrairement aux tâches synthétiques créées spécifiquement pour l'entraînement de l'IA, ces jeux sont construits autour de l'intuition humaine, de la logique sociale et du bon sens physique. Cela en fait un outil unique et efficace pour mesurer la capacité d'une IA à naviguer dans un monde conçu pour l'intelligence générale humaine.

Dans leur preuve de concept, les chercheurs ont sélectionné 100 jeux basés sur les classements de Steam et de l'Apple App Store. Ces jeux n'ont pas été simplifiés pour l'IA ; ils ont plutôt été standardisés dans des environnements conteneurisés pour garantir la reproductibilité. En testant des VLM de pointe sur ces titres, l'étude crée une comparaison directe entre les performances des machines et la « moyenne humaine », révélant exactement où les architectures actuelles échouent en matière de raisonnement de niveau humain.

Comment l'AI GameStore se compare-t-il à l'ARC-AGI pour mesurer l'intelligence ?

L'AI GameStore évalue l'IA sur un large « Multivers des jeux humains » issu de plateformes du monde réel, offrant des benchmarks évolutifs et diversifiés au-delà des tests statiques. En revanche, l'ARC-AGI se concentre sur des tâches de raisonnement abstrait, tandis que l'AI GameStore teste des compétences pratiques telles que l'apprentissage de modèles de monde, la mémoire et la planification dans des environnements de jeu dynamiques. Les modèles de pointe obtiennent un score inférieur à 10 % de la moyenne humaine sur la plupart des jeux de l'AI GameStore, mettant en évidence des lacunes plus larges que celles que l'ARC-AGI pourrait révéler.

Bien que l'ARC-AGI (Abstraction and Reasoning Corpus) soit très respecté pour son accent sur l'intelligence fluide, l'AI GameStore offre un test de « bon sens » plus étendu. Les jeux exigent plus qu'une simple reconnaissance de formes ; ils nécessitent :

  • Une mémoire à long terme pour suivre les objets et les objectifs à travers les niveaux.
  • Un raisonnement spatial pour naviguer dans des environnements 2D et 3D.
  • Une planification stratégique pour gérer les ressources et anticiper les mouvements des adversaires.
  • Une inférence causale pour comprendre comment les différentes mécaniques de jeu interagissent.
Cette approche multidimensionnelle garantit que l'IAG mesurée est fonctionnelle et ancrée dans la réalité, plutôt que purement mathématique.

Pourquoi les modèles d'IA actuels ont-ils du mal avec les jeux nécessitant l'apprentissage d'un modèle de monde ?

Les modèles d'IA actuels ont du mal avec les jeux nécessitant l'apprentissage d'un modèle de monde parce qu'ils manquent de capacités robustes pour construire des représentations internes de la physique du jeu, de la persistance des objets et de la dynamique environnementale. Les évaluations sur les jeux de l'AI GameStore montrent que ces modèles échouent particulièrement dans les tâches exigeant une rétention mémorielle à travers les épisodes et une planification en plusieurs étapes. Cela révèle des limites dans l'atteinte d'une IAG de type humain, les modèles affichant des performances nettement inférieures aux scores humains.

Les chercheurs ont découvert que même les modèles vision-langage les plus avancés obtenaient moins de 10 % du score moyen humain sur la majorité des 100 jeux de test. Le problème central réside dans l'écart entre la prédiction du prochain token et la compréhension des relations de cause à effet. Dans un environnement de jeu, un agent doit prédire comment ses actions modifieront l'état du monde. Sans un modèle de monde sophistiqué, l'IA ne peut pas planifier efficacement ses mouvements, ce qui conduit à des stratégies « hallucinées » qui échouent lorsque la physique ou la logique du jeu ne correspondent pas aux corrélations statistiques internes de l'IA.

L'avenir des tests d'IAG et de l'évolutivité

L'avenir de l'évaluation de l'IAG réside dans l'évolution vers une réalité où les machines sont jugées sur leur capacité à apprendre n'importe quelle tâche, et pas seulement des tâches prédéfinies. L'AI GameStore fournit une feuille de route pour ce changement en proposant une plateforme capable d'évoluer parallèlement au développement de l'IA. À mesure que les modèles s'améliorent, le « magasin » peut être mis à jour avec des jeux plus complexes, garantissant que le benchmark reste une « cible mouvante » qui résiste à la saturation et continue de stimuler l'innovation dans l'apprentissage automatique.

Les implications de cette recherche s'étendent au-delà du jeu. En utilisant le divertissement humain comme étalon scientifique, l'équipe a identifié des faiblesses architecturales spécifiques dans les modèles actuels, notamment en ce qui concerne l'intuition physique et la planification à long terme. Combler ces lacunes est essentiel pour le développement d'une IAG capable d'opérer de manière sûre et efficace dans le monde physique. À l'avenir, l'équipe vise à étendre l'AI GameStore pour inclure des genres encore plus diversifiés, repoussant ainsi les limites de ce que les machines peuvent comprendre et accomplir.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Qu'est-ce que l'AI GameStore et comment fonctionne-t-il ?
A L'AI GameStore est une plateforme évolutive et ouverte permettant d'évaluer l'intelligence générale des machines à l'aide de jeux humains, c'est-à-dire des jeux conçus par des humains pour des humains. Elle fonctionne en utilisant des modèles de langage de grande taille (LLM) avec une intervention humaine pour synthétiser de nouveaux jeux représentatifs, en sourçant et en adaptant automatiquement des variantes standardisées et conteneurisées provenant de plateformes populaires telles que l'App Store d'Apple et Steam. À titre de démonstration de faisabilité, elle a généré 100 jeux de ce type et a évalué des modèles vision-langage de pointe sur de courts épisodes de jeu.
Q Comment l'AI GameStore se compare-t-il à ARC-AGI pour mesurer l'intelligence ?
A L'AI GameStore évalue l'IA sur un vaste « Multivers de jeux humains » provenant de plateformes du monde réel, offrant des critères d'évaluation évolutifs et diversifiés au-delà des tests statiques. En revanche, l'ARC-AGI se concentre sur des tâches de raisonnement abstrait, tandis que l'AI GameStore teste des compétences pratiques telles que l'apprentissage de modèles du monde, la mémoire et la planification dans des environnements de jeu dynamiques. Les modèles de pointe obtiennent des scores inférieurs à 10 % de la moyenne humaine sur la plupart des jeux de l'AI GameStore, soulignant des lacunes d'intelligence plus larges que ce que l'ARC-AGI pourrait révéler.
Q Pourquoi les modèles d'IA actuels ont-ils des difficultés avec les jeux nécessitant l'apprentissage de modèles du monde ?
A Les modèles d'IA actuels, en particulier les modèles vision-langage, éprouvent des difficultés avec les jeux nécessitant l'apprentissage de modèles du monde car ils manquent de capacités robustes pour construire des représentations internes de la physique du jeu, de la persistance des objets et de la dynamique environnementale. Les évaluations sur les jeux de l'AI GameStore montrent que ces modèles échouent particulièrement dans les tâches exigeant une rétention mémorielle entre les épisodes et une planification en plusieurs étapes. Cela révèle les limites de l'atteinte d'une intelligence générale de type humain, car ils obtiennent des performances inférieures à 10 % des scores humains sur ces jeux complexes.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!