What is the AI GameStore and how does it work?

The AI GameStore is a scalable, open-ended platform for evaluating machine general intelligence using human games, which are games designed by humans for humans. It works by employing large language models (LLMs) with humans-in-the-loop to synthesize new representative games, automatically sourcing and adapting standardized, containerized variants from popular platforms like the Apple App Store and Steam. As a proof of concept, it generated 100 such games and evaluated frontier vision-language models on short play episodes.

How does AI GameStore compare to ARC-AGI for measuring intelligence?

The AI GameStore evaluates AI on a broad 'Multiverse of Human Games' from real-world platforms, providing scalable and diverse benchmarks beyond static tests. In contrast, ARC-AGI focuses on abstract reasoning tasks, while AI GameStore tests practical skills like world-model learning, memory, and planning in dynamic game environments. Frontier models score under 10% of human average on most AI GameStore games, highlighting broader intelligence gaps than ARC-AGI might reveal.

Why do current AI models struggle with games requiring world-model learning?

Current AI models, particularly vision-language models, struggle with games requiring world-model learning because they lack robust abilities to build internal representations of game physics, object persistence, and environmental dynamics. Evaluations on AI GameStore games show these models especially falter in tasks demanding memory retention across episodes and multi-step planning. This reveals limitations in achieving human-like general intelligence, as they perform below 10% of human scores on such challenging games.

AI GameStore: Nowy system oceny zdolności AGI

Dążenie do stworzenia Sztucznej Inteligencji Ogólnej (AGI) napotkało krytyczne wąskie gardło, ponieważ tradycyjne metody oceny nie nadążają za gwałtownym rozwojem możliwości modeli. Aby zaradzić temu problemowi, badacze, w tym José Hernández-Orallo, Joshua B. Tenenbaum oraz Samuel J. Gershman, zaprezentowali AI GameStore – skalowalne środowisko testujące inteligencję maszynową w ramach „Multiwersum Ludzkich Gier”. Wykorzystując tytuły z platform takich jak Steam i Apple App Store, ta otwarta platforma zapewnia bardziej rygorystyczne i dynamiczne środowisko niż statyczne benchmarki, mierząc zdolność agenta do uczenia się i adaptacji w różnorodnych ludzkich doświadczeniach.

Nasycenie konwencjonalnych benchmarków AI

Konwencjonalne benchmarki AI zazwyczaj oceniają jedynie wąskie kompetencje i szybko ulegają nasyceniu, gdy deweloperzy optymalizują modele pod kątem konkretnych parametrów testowych. Tradycyjne metody oceny są często statyczne, co oznacza, że modele mogą z czasem „nauczyć się na pamięć” danych lub dopasować się do nich (overfitting), co prowadzi do zawyżonych wyników, które nie odzwierciedlają prawdziwej inteligencji ogólnej. Zjawisko to stwarza złudne poczucie postępu, w którym modele wydają się wysoce sprawne w kontrolowanych warunkach, ale zawodzą w obliczu nowej, rzeczywistej złożoności.

Statycznym środowiskom brakuje otwartości wymaganej do symulowania nieprzewidywalnej natury ludzkiego życia. Gdy benchmark pozostaje niezmieniony przez lata, przestaje być miarą generalizacji, a staje się miarą wyspecjalizowanej optymalizacji. Zespół badawczy twierdzi, że aby maszyna mogła wykazać się AGI, musi wykazać biegłość w środowiskach, których nigdy wcześniej nie widziała, co wymaga przejścia od stałych zbiorów danych do ogromnej, ewoluującej biblioteki interaktywnych wyzwań.

Czym jest AI GameStore i jak działa?

AI GameStore to skalowalna, otwarta platforma do oceny ogólnej inteligencji maszynowej przy użyciu ludzkich gier, czyli gier zaprojektowanych przez ludzi dla ludzi. System działa poprzez wykorzystanie Dużych Modeli Językowych (LLM) z udziałem ludzi (podejście humans-in-the-loop) do syntezy nowych, reprezentatywnych gier, automatycznie pozyskując i adaptując standaryzowane, skonteneryzowane warianty z popularnych platform, takich jak Apple App Store i Steam.

System operuje poprzez identyfikację różnorodnych mechanik gier i tłumaczenie ich na środowiska, z którymi mogą wchodzić w interakcję Modele wizyjno-językowe (VLM). Stosując podejście „człowiek w pętli”, badacze zapewniają, że generowane gry zachowują jakościową esencję ludzkiej rozrywki, pozostając jednocześnie dostępnymi obliczeniowo dla agentów AI. Proces ten pozwala na szybkie generowanie reprezentatywnych ludzkich gier, tworząc pole testowe tak szerokie, jak sama ludzka wyobraźnia.

Definiowanie Uniwersum Ludzkich Gier

„Multiwersum Ludzkich Gier” reprezentuje sumę wszystkich gier stworzonych przez ludzi, by cieszyły ludzi, służąc jako przybliżenie (proxy) dla ludzkiej różnorodności poznawczej. W przeciwieństwie do syntetycznych zadań stworzonych specjalnie na potrzeby trenowania AI, gry te opierają się na ludzkiej intuicji, logice społecznej i fizycznym zdrowym rozsądku. Czyni to je wyjątkowo skutecznym narzędziem do mierzenia tego, jak dobrze AI potrafi poruszać się w świecie zaprojektowanym dla ludzkiej inteligencji ogólnej.

W ramach dowodu koncepcji (proof of concept) badacze wybrali 100 gier na podstawie list przebojów ze Steam i Apple App Store. Gry te nie zostały uproszczone dla AI; zamiast tego ustandaryzowano je w skonteneryzowanych środowiskach, aby zapewnić powtarzalność wyników. Testując najnowocześniejsze modele VLM na tych tytułach, badanie tworzy bezpośrednie porównanie wydajności maszyn ze „średnią ludzką”, ujawniając dokładnie te obszary, w których obecne architektury ustępują rozumowaniu na poziomie ludzkim.

Jak AI GameStore wypada w porównaniu z ARC-AGI w mierzeniu inteligencji?

AI GameStore ocenia AI w szerokim „Multiwersum Ludzkich Gier” z rzeczywistych platform, dostarczając skalowalnych i zróżnicowanych benchmarków wykraczających poza statyczne testy. W przeciwieństwie do tego, ARC-AGI skupia się na zadaniach związanych z rozumowaniem abstrakcyjnym, podczas gdy AI GameStore sprawdza umiejętności praktyczne, takie jak uczenie się modelu świata, pamięć i planowanie w dynamicznych środowiskach gier. Najnowocześniejsze modele uzyskują wyniki poniżej 10% średniej ludzkiej w większości gier AI GameStore, co uwydatnia szersze luki niż te, które mógłby ujawnić ARC-AGI.

Choć ARC-AGI (Abstraction and Reasoning Corpus) jest ceniony za skupienie się na inteligencji płynnej, AI GameStore oferuje szerszy test „zdrowego rozsądku”. Gry wymagają czegoś więcej niż tylko rozpoznawania wzorców; wymagają:

Pamięci długotrwałej do śledzenia obiektów i celów na różnych poziomach.
Rozumowania przestrzennego do nawigacji w środowiskach 2D i 3D.
Planowania strategicznego w celu zarządzania zasobami i przewidywania ruchów przeciwnika.
Wnioskowania przyczynowego, aby zrozumieć, jak oddziałują na siebie różne mechaniki gry.

To wielowymiarowe podejście gwarantuje, że mierzona AGI jest funkcjonalna i osadzona w rzeczywistości, a nie czysto matematyczna.

Dlaczego obecne modele AI mają trudności z grami wymagającymi uczenia się modelu świata?

Obecne modele AI zmagają się z grami wymagającymi uczenia się modelu świata, ponieważ brakuje im solidnych zdolności do budowania wewnętrznych reprezentacji fizyki gry, trwałości obiektów i dynamiki środowiska. Ewaluacje w grach AI GameStore pokazują, że modele te szczególnie zawodzą w zadaniach wymagających retencji pamięci między epizodami oraz planowania wieloetapowego. Ujawnia to ograniczenia w osiąganiu AGI na poziomie ludzkim, gdyż modele radzą sobie znacząco gorzej niż ludzie.

Badacze odkryli, że nawet najbardziej zaawansowane Modele wizyjno-językowe osiągnęły mniej niż 10% średniego wyniku ludzkiego w większości ze 100 testowych gier. Główny problem leży w przepaści między przewidywaniem następnego tokenu a rozumieniem przyczyny i skutku. W środowisku gry agent musi przewidzieć, jak jego działania zmienią stan świata. Bez wyrafinowanego modelu świata AI nie może skutecznie planować swoich ruchów, co prowadzi do „halucynowania” strategii, które zawodzą, gdy fizyka lub logika gry nie zgadzają się z wewnętrznymi korelacjami statystycznymi AI.

Przyszłość testowania AGI i skalowalność

Przyszłość oceny AGI leży w dążeniu do rzeczywistości, w której maszyny są oceniane na podstawie ich zdolności do uczenia się dowolnego zadania, a nie tylko tych z góry zdefiniowanych. AI GameStore wyznacza kierunek tej zmiany, oferując platformę, która może skalować się wraz z rozwojem AI. W miarę doskonalenia modeli, „sklep” może być aktualizowany o bardziej złożone gry, zapewniając, że benchmark pozostanie „ruchomym celem”, który opiera się nasyceniu i nadal napędza innowacje w uczeniu maszynowym.

Implikacje tych badań wykraczają poza gaming. Wykorzystując ludzką rozrywkę jako naukową miarę, zespół zidentyfikował konkretne słabości architektoniczne obecnych modeli, szczególnie w zakresie intuicji fizycznej i planowania długoterminowego. Uzupełnienie tych luk jest niezbędne dla rozwoju AGI, która będzie mogła bezpiecznie i skutecznie funkcjonować w świecie fizycznym. W przyszłości zespół zamierza rozszerzyć AI GameStore o jeszcze bardziej zróżnicowane gatunki, dalej przesuwając granice tego, co maszyny potrafią zrozumieć i osiągnąć.

AI GameStore: Nowe ramy ewaluacji AGI

Nasycenie konwencjonalnych benchmarków AI

Czym jest AI GameStore i jak działa?

Definiowanie Uniwersum Ludzkich Gier

Jak AI GameStore wypada w porównaniu z ARC-AGI w mierzeniu inteligencji?

Dlaczego obecne modele AI mają trudności z grami wymagającymi uczenia się modelu świata?

Przyszłość testowania AGI i skalowalność

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

Nasycenie konwencjonalnych benchmarków AI

Czym jest AI GameStore i jak działa?

Definiowanie Uniwersum Ludzkich Gier

Jak AI GameStore wypada w porównaniu z ARC-AGI w mierzeniu inteligencji?

Dlaczego obecne modele AI mają trudności z grami wymagającymi uczenia się modelu świata?

Przyszłość testowania AGI i skalowalność

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available