AI GameStore: Een nieuw raamwerk voor AGI-evaluatie

Breaking News Technologie
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
Nu AI-modellen de traditionele benchmarks verzadigen, verschuiven onderzoekers hun focus naar een dynamischer testterrein: de enorme, evoluerende bibliotheek aan games ontworpen voor menselijk vermaak. Het voorgestelde 'AI GameStore'-raamwerk beoogt ware algemene intelligentie te meten door modellen te testen in het 'Multiversum van menselijke games' op platforms zoals Steam en de Apple App Store.

De zoektocht naar Artificial General Intelligence (AGI) is op een kritiek knelpunt beland, omdat traditionele evaluatiemethoden het tempo van de snelle ontwikkelingen in modelcapaciteiten niet kunnen bijhouden. Om dit aan te pakken, hebben onderzoekers, waaronder José Hernández-Orallo, Joshua B. Tenenbaum en Samuel J. Gershman, de AI GameStore geïntroduceerd: een schaalbaar framework dat de intelligentie van machines test tegen het "Multiversum van menselijke spellen". Door gebruik te maken van titels van platforms als Steam en de Apple App Store, biedt dit open platform een rigoureuzere en dynamischere omgeving dan statische benchmarks, waarbij het vermogen van een agent wordt gemeten om te leren en zich aan te passen aan uiteenlopende menselijke ervaringen.

De verzadiging van conventionele AI-benchmarks

Conventionele AI-benchmarks beoordelen doorgaans slechts beperkte vaardigheden en raken snel verzadigd wanneer ontwikkelaars optimaliseren voor specifieke testparameters. Traditionele evaluaties zijn vaak statisch, wat betekent dat modellen de data uiteindelijk kunnen "memoriseren" of eraan kunnen overfitten, wat leidt tot opgeblazen scores die geen weerspiegeling zijn van echte algemene intelligentie. Dit fenomeen creëert een vals gevoel van vooruitgang, waarbij modellen zeer bekwaam lijken in gecontroleerde omgevingen, maar falen wanneer ze worden geconfronteerd met nieuwe, complexe situaties uit de echte wereld.

Statische omgevingen missen de open-endedness die vereist is om de onvoorspelbare aard van het menselijk leven te simuleren. Wanneer een benchmark jarenlang ongewijzigd blijft, is het niet langer een maatstaf voor generalisatie, maar een maatstaf voor gespecialiseerde optimalisatie. Het onderzoeksteam stelt dat een machine, om AGI aan te tonen, vaardigheid moet tonen in omgevingen die hij nog nooit eerder heeft gezien. Dit vereist een overgang van vaste datasets naar een enorme, evoluerende bibliotheek van interactieve uitdagingen.

Wat is de AI GameStore en hoe werkt het?

De AI GameStore is een schaalbaar, open platform voor het evalueren van de algemene intelligentie van machines met behulp van menselijke games: spellen die door mensen voor mensen zijn ontworpen. Het werkt door Large Language Models (LLMs) in te zetten met "humans-in-the-loop" om nieuwe representatieve games te synthetiseren, waarbij automatisch gestandaardiseerde, gecontaineriseerde varianten van populaire platforms zoals de Apple App Store en Steam worden verkregen en aangepast.

Het systeem werkt door diverse spelmechanismen te identificeren en deze te vertalen naar omgevingen waarmee Vision-Language Models (VLMs) kunnen communiceren. Door een "human-in-the-loop"-benadering te gebruiken, garanderen de onderzoekers dat de gegenereerde games de kwalitatieve essentie van menselijk entertainment behouden, terwijl ze computationeel toegankelijk blijven voor AI-agents. Dit proces maakt het mogelijk om snel representatieve menselijke games te genereren, waardoor een testterrein ontstaat dat net zo breed is als de menselijke verbeelding zelf.

Het definiëren van het Multiversum van menselijke spellen

Het "Multiversum van menselijke spellen" vertegenwoordigt de totale som van alle games die door mensen zijn gemaakt om door mensen van te genieten, en dient als een proxy voor menselijke cognitieve diversiteit. In tegenstelling tot synthetische taken die specifiek voor AI-training zijn gemaakt, zijn deze games gebouwd rond menselijke intuïtie, sociale logica en fysiek gezond verstand. Dit maakt ze tot een uniek effectief hulpmiddel om te meten hoe goed een AI kan navigeren in een wereld die is ontworpen voor menselijke algemene intelligentie.

In hun proof of concept selecteerden de onderzoekers 100 games op basis van de hitlijsten van Steam en de Apple App Store. Deze spellen werden niet vereenvoudigd voor de AI; in plaats daarvan werden ze gestandaardiseerd in gecontaineriseerde omgevingen om reproduceerbaarheid te garanderen. Door frontier VLMs op deze titels te testen, creëert de studie een directe vergelijking tussen machineprestaties en het "menselijk gemiddelde", wat precies onthult waar de huidige architecturen tekortschieten in redeneren op menselijk niveau.

Hoe verhoudt de AI GameStore zich tot ARC-AGI voor het meten van intelligentie?

De AI GameStore evalueert AI op een breed 'Multiversum van menselijke spellen' van echte platforms, wat zorgt voor schaalbare en diverse benchmarks die verder gaan dan statische tests. In tegenstelling hiermee richt ARC-AGI zich op abstracte redeneertaken, terwijl de AI GameStore praktische vaardigheden test zoals het leren van wereldmodellen, geheugen en planning in dynamische spelomgevingen. Frontier-modellen scoren onder de 10% van het menselijk gemiddelde op de meeste AI GameStore-games, wat grotere hiaten aan het licht brengt dan ARC-AGI mogelijk onthult.

Hoewel ARC-AGI (de Abstraction and Reasoning Corpus) hoog wordt gewaardeerd vanwege de focus op vloeiende intelligentie, biedt de AI GameStore een uitgebreidere test voor "gezond verstand". Games vereisen meer dan alleen patroonherkenning; ze vereisen:

  • Lange-termijngeheugen om objecten en doelen over verschillende niveaus heen te volgen.
  • Ruimtelijk inzicht om door 2D- en 3D-omgevingen te navigeren.
  • Strategische planning om middelen te beheren en te anticiperen op acties van tegenstanders.
  • Causale inferentie om te begrijpen hoe verschillende spelmechanismen met elkaar interageren.
Deze multidimensionale benadering zorgt ervoor dat de AGI die wordt gemeten functioneel is en geworteld is in de realiteit, in plaats van puur wiskundig.

Waarom hebben huidige AI-modellen moeite met spellen die het leren van wereldmodellen vereisen?

Huidige AI-modellen hebben moeite met spellen die het leren van wereldmodellen vereisen, omdat ze robuuste vermogens missen om interne representaties op te bouwen van spel-fysica, objectpermanentie en omgevingsdynamiek. Evaluaties op AI GameStore-games tonen aan dat deze modellen vooral tekortschieten bij taken die geheugenretentie over episodes en meerstapsplanning vereisen. Dit onthult beperkingen bij het bereiken van mensachtige AGI, aangezien modellen aanzienlijk onder de menselijke scores presteren.

Onderzoekers ontdekten dat zelfs de meest geavanceerde Vision-Language Models minder dan 10% van de gemiddelde menselijke score behaalden op het merendeel van de 100 testgames. Het kernprobleem ligt in de kloof tussen het voorspellen van het volgende token en het begrijpen van oorzaak en gevolg. In een spelomgeving moet een agent voorspellen hoe zijn acties de toestand van de wereld zullen veranderen. Zonder een geavanceerd wereldmodel kan de AI zijn zetten niet effectief plannen, wat leidt tot "gehallucineerde" strategieën die falen wanneer de fysica of logica van het spel niet overeenkomt met de interne statistische correlaties van de AI.

De toekomst van AGI-testen en schaalbaarheid

De toekomst van AGI-evaluatie ligt in de beweging naar een realiteit waarin machines worden beoordeeld op hun vermogen om elke taak te leren, niet alleen vooraf gedefinieerde taken. De AI GameStore biedt een roadmap voor deze verschuiving door een platform te bieden dat kan meeschalen met de AI-ontwikkeling. Naarmate modellen verbeteren, kan de "store" worden bijgewerkt met complexere games, waardoor de benchmark een "bewegend doelwit" blijft dat verzadiging weerstaat en innovatie in machine learning blijft stimuleren.

De implicaties van dit onderzoek reiken verder dan gaming. Door menselijk entertainment als wetenschappelijke maatstaf te gebruiken, heeft het team specifieke architecturale zwakheden in huidige modellen geïdentificeerd, met name wat betreft fysieke intuïtie en langetermijnplanning. Het aanpakken van deze hiaten is essentieel voor de ontwikkeling van AGI die veilig en effectief kan functioneren in de fysieke wereld. In de toekomst streeft het team ernaar de AI GameStore uit te breiden met nog diversere genres, om de grenzen van wat machines kunnen begrijpen en bereiken verder te verleggen.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Wat is de AI GameStore en hoe werkt het?
A De AI GameStore is een schaalbaar, open platform voor het evalueren van algemene kunstmatige intelligentie met behulp van menselijke spellen, dit zijn spellen die door mensen voor mensen zijn ontworpen. Het werkt door grote taalmodellen (LLM's) in te zetten met menselijke tussenkomst om nieuwe representatieve spellen te synthetiseren, waarbij automatisch gestandaardiseerde, gecontaineriseerde varianten worden verkregen en aangepast van populaire platforms zoals de Apple App Store en Steam. Als bewijs van concept genereerde het 100 van dergelijke spellen en evalueerde het geavanceerde vision-language-modellen op korte spelsessies.
Q Hoe verhoudt AI GameStore zich tot ARC-AGI voor het meten van intelligentie?
A De AI GameStore evalueert AI op een breed 'Multiversum van Menselijke Spellen' van echte platforms, wat zorgt voor schaalbare en diverse benchmarks die verder gaan dan statische tests. In contrast hiermee richt ARC-AGI zich op abstracte redeneertaken, terwijl AI GameStore praktische vaardigheden test zoals het leren van wereldmodellen, geheugen en planning in dynamische spelomgevingen. Toonaangevende modellen scoren minder dan 10% van het menselijk gemiddelde op de meeste AI GameStore-spellen, wat grotere hiaten in intelligentie blootlegt dan ARC-AGI mogelijk laat zien.
Q Waarom hebben huidige AI-modellen moeite met spellen die het leren van een wereldmodel vereisen?
A Huidige AI-modellen, met name vision-language-modellen, hebben moeite met spellen die het leren van een wereldmodel vereisen, omdat het hen ontbreekt aan robuuste vermogens om interne representaties op te bouwen van spelfysica, objectpersistentie en omgevingsdynamiek. Evaluaties op AI GameStore-spellen tonen aan dat deze modellen vooral tekortschieten in taken die geheugenbehoud over verschillende episodes en meerstapsplanning vereisen. Dit onthult beperkingen in het bereiken van mensachtige algemene intelligentie, aangezien ze onder de 10% van de menselijke scores presteren op dergelijke uitdagende spellen.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!