Jakten på artificiell generell intelligens (AGI) har nått en kritisk flaskhals då traditionella utvärderingsmetoder inte lyckas hålla jämna steg med modellernas snabba utveckling. För att hantera detta har forskare, däribland José Hernández-Orallo, Joshua B. Tenenbaum och Samuel J. Gershman, introducerat AI GameStore, ett skalbart ramverk som testar maskinintelligens mot ett "multiversum av mänskliga spel" (Multiverse of Human Games). Genom att utnyttja titlar från plattformar som Steam och Apple App Store erbjuder denna öppna plattform en mer rigorös och dynamisk miljö än statiska benchmarks, och mäter en agents förmåga att lära sig och anpassa sig till olika mänskliga erfarenheter.
Mättnaden av konventionella AI-benchmarks
Konventionella AI-benchmarks utvärderar vanligtvis endast snäva förmågor och blir snabbt mättade när utvecklare optimerar för specifika testparametrar. Traditionella utvärderingar är ofta statiska, vilket innebär att modeller med tiden kan "lära sig utantill" eller överanpassas till datan, vilket leder till uppblåsta poäng som inte återspeglar verklig generell intelligens. Detta fenomen skapar en falsk känsla av framsteg där modeller framstår som högst kapabla i kontrollerade miljöer, men misslyckas när de ställs inför ny, verklig komplexitet.
Statiska miljöer saknar den öppenhet (open-endedness) som krävs för att simulera den mänskliga tillvarons oförutsägbara natur. När ett benchmark förblir oförändrat under flera år upphör det att vara ett mått på generalisering och blir istället ett mått på specialiserad optimering. Forskarlaget menar att för att en maskin ska kunna uppvisa AGI måste den visa skicklighet i miljöer som den aldrig sett tidigare, vilket kräver en övergång från fasta dataset till ett omfattande, ständigt föränderligt bibliotek av interaktiva utmaningar.
Vad är AI GameStore och hur fungerar det?
AI GameStore är en skalbar, öppen plattform för att utvärdera maskiners generella intelligens med hjälp av mänskliga spel, det vill säga spel designade av människor för människor. Den fungerar genom att använda stora språkmodeller (LLM) med "människor-i-loopen" för att syntetisera nya representativa spel, samt genom att automatiskt hämta och anpassa standardiserade, containeriserade varianter från populära plattformar som Apple App Store och Steam.
Systemet fungerar genom att identifiera olika spelmekaniker och översätta dem till miljöer som vision-språkmodeller (VLM) kan interagera med. Genom att använda ett tillvägagångssätt med människan-i-loopen säkerställer forskarna att de genererade spelen behåller den kvalitativa kärnan i mänsklig underhållning samtidigt som de förblir beräkningsmässigt tillgängliga för AI-agenter. Denna process möjliggör snabb generering av representativa mänskliga spel, vilket skapar ett testområde som är lika brett som den mänskliga fantasin själv.
Definitionen av "Multiverse of Human Games"
"Multiverse of Human Games" representerar den totala summan av alla spel som skapats av människor för att avnjutas av människor, och fungerar som en ställföreträdare för mänsklig kognitiv mångfald. Till skillnad från syntetiska uppgifter som skapats specifikt för AI-träning är dessa spel byggda kring mänsklig intuition, social logik och fysiskt sunt förnuft. Detta gör dem till ett unikt effektivt verktyg för att mäta hur väl en AI kan navigera i en värld designad för mänsklig generell intelligens.
I sitt konceptbevis valde forskarna ut 100 spel baserat på topplistor från Steam och Apple App Store. Dessa spel förenklades inte för AI:n; istället standardiserades de till containeriserade miljöer för att säkerställa reproducerbarhet. Genom att testa frontier-modeller (VLM) på dessa titlar skapar studien en direkt jämförelse mellan maskinens prestanda och det "mänskliga genomsnittet", vilket avslöjar exakt var nuvarande arkitekturer brister i resonemang på mänsklig nivå.
Hur står sig AI GameStore mot ARC-AGI när det gäller att mäta intelligens?
AI GameStore utvärderar AI på ett brett "Multiverse of Human Games" från verkliga plattformar, vilket ger skalbara och mångsidiga benchmarks utöver statiska tester. I motsats till detta fokuserar ARC-AGI på abstrakta resonemangsuppgifter, medan AI GameStore testar praktiska färdigheter som inlärning av världsmodeller, minne och planering i dynamiska spelmiljöer. Frontier-modeller får under 10 % av det mänskliga genomsnittet på de flesta spel i AI GameStore, vilket belyser bredare gap än vad ARC-AGI kan avslöja.
Även om ARC-AGI (Abstraction and Reasoning Corpus) är högt ansett för sitt fokus på flytande intelligens, erbjuder AI GameStore ett mer omfattande test av "sunt förnuft". Spel kräver mer än bara mönsterigenkänning; de kräver:
- Långtidsminne för att spåra objekt och mål genom olika nivåer.
- Spatialt resonemang för att navigera i 2D- och 3D-miljöer.
- Strategisk planering för att hantera resurser och förutse motståndarens drag.
- Kausal inferens för att förstå hur olika spelmekaniker samverkar.
Varför har nuvarande AI-modeller svårt med spel som kräver inlärning av världsmodeller?
Nuvarande AI-modeller kämpar med spel som kräver inlärning av världsmodeller eftersom de saknar robusta förmågor att bygga interna representationer av spelens fysik, objektpermanens och miljömässiga dynamik. Utvärderingar av spel i AI GameStore visar att dessa modeller särskilt brister i uppgifter som kräver minnesretention över episoder och planering i flera steg. Detta avslöjar begränsningar i att uppnå människolik AGI, då modellerna presterar avsevärt under mänskliga poängnivåer.
Forskare fann att även de mest avancerade vision-språkmodellerna uppnådde mindre än 10 % av den mänskliga genomsnittspoängen på majoriteten av de 100 testspelen. Kärnproblemet ligger i klyftan mellan att förutsäga nästa token och att förstå orsak och verkan. I en spelmiljö måste en agent förutsäga hur dess handlingar kommer att förändra världens tillstånd. Utan en sofistikerad världsmodell kan AI:n inte planera sina drag effektivt, vilket leder till "hallucinerade" strategier som misslyckas när spelets fysik eller logik inte matchar AI:ns interna statistiska korrelationer.
Framtiden för AGI-testning och skalbarhet
Framtiden för utvärdering av AGI ligger i att röra sig mot en verklighet där maskiner bedöms utifrån sin förmåga att lära sig vilken uppgift som helst, inte bara fördefinierade sådana. AI GameStore erbjuder en färdplan för detta skifte genom att tillhandahålla en plattform som kan skalas i takt med AI-utvecklingen. Allteftersom modellerna förbättras kan "butiken" uppdateras med mer komplexa spel, vilket säkerställer att benchmark-testet förblir ett "rörligt mål" som motstår mättnad och fortsätter att driva innovation inom maskininlärning.
Konsekvenserna av denna forskning sträcker sig bortom spelande. Genom att använda mänsklig underhållning som ett vetenskapligt måttstock har teamet identifierat specifika arkitektoniska svagheter i nuvarande modeller, särskilt gällande fysisk intuition och långsiktig planering. Att åtgärda dessa brister är avgörande för utvecklingen av AGI som säkert och effektivt kan operera i den fysiska världen. Framöver siktar teamet på att utöka AI GameStore till att inkludera ännu fler genrer, för att ytterligare utmana gränserna för vad maskiner kan förstå och uppnå.
Comments
No comments yet. Be the first!