AI GameStore: Nowe ramy ewaluacji AGI

Breaking News Technology
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
Podczas gdy modele sztucznej inteligencji osiągają limity w tradycyjnych benchmarkach, badacze przenoszą uwagę na bardziej dynamiczny poligon doświadczalny: ogromną, ewoluującą bibliotekę gier stworzonych dla ludzi. Zaproponowany system „AI GameStore” ma na celu pomiar rzeczywistej ogólnej inteligencji poprzez testowanie modeli w „Multiversum Ludzkich Gier” dostępnych na platformach takich jak Steam czy Apple App Store.

Dążenie do stworzenia Sztucznej Inteligencji Ogólnej (AGI) napotkało krytyczne wąskie gardło, ponieważ tradycyjne metody oceny nie nadążają za gwałtownym rozwojem możliwości modeli. Aby zaradzić temu problemowi, badacze, w tym José Hernández-Orallo, Joshua B. Tenenbaum oraz Samuel J. Gershman, zaprezentowali AI GameStore – skalowalne środowisko testujące inteligencję maszynową w ramach „Multiwersum Ludzkich Gier”. Wykorzystując tytuły z platform takich jak Steam i Apple App Store, ta otwarta platforma zapewnia bardziej rygorystyczne i dynamiczne środowisko niż statyczne benchmarki, mierząc zdolność agenta do uczenia się i adaptacji w różnorodnych ludzkich doświadczeniach.

Nasycenie konwencjonalnych benchmarków AI

Konwencjonalne benchmarki AI zazwyczaj oceniają jedynie wąskie kompetencje i szybko ulegają nasyceniu, gdy deweloperzy optymalizują modele pod kątem konkretnych parametrów testowych. Tradycyjne metody oceny są często statyczne, co oznacza, że modele mogą z czasem „nauczyć się na pamięć” danych lub dopasować się do nich (overfitting), co prowadzi do zawyżonych wyników, które nie odzwierciedlają prawdziwej inteligencji ogólnej. Zjawisko to stwarza złudne poczucie postępu, w którym modele wydają się wysoce sprawne w kontrolowanych warunkach, ale zawodzą w obliczu nowej, rzeczywistej złożoności.

Statycznym środowiskom brakuje otwartości wymaganej do symulowania nieprzewidywalnej natury ludzkiego życia. Gdy benchmark pozostaje niezmieniony przez lata, przestaje być miarą generalizacji, a staje się miarą wyspecjalizowanej optymalizacji. Zespół badawczy twierdzi, że aby maszyna mogła wykazać się AGI, musi wykazać biegłość w środowiskach, których nigdy wcześniej nie widziała, co wymaga przejścia od stałych zbiorów danych do ogromnej, ewoluującej biblioteki interaktywnych wyzwań.

Czym jest AI GameStore i jak działa?

AI GameStore to skalowalna, otwarta platforma do oceny ogólnej inteligencji maszynowej przy użyciu ludzkich gier, czyli gier zaprojektowanych przez ludzi dla ludzi. System działa poprzez wykorzystanie Dużych Modeli Językowych (LLM) z udziałem ludzi (podejście humans-in-the-loop) do syntezy nowych, reprezentatywnych gier, automatycznie pozyskując i adaptując standaryzowane, skonteneryzowane warianty z popularnych platform, takich jak Apple App Store i Steam.

System operuje poprzez identyfikację różnorodnych mechanik gier i tłumaczenie ich na środowiska, z którymi mogą wchodzić w interakcję Modele wizyjno-językowe (VLM). Stosując podejście „człowiek w pętli”, badacze zapewniają, że generowane gry zachowują jakościową esencję ludzkiej rozrywki, pozostając jednocześnie dostępnymi obliczeniowo dla agentów AI. Proces ten pozwala na szybkie generowanie reprezentatywnych ludzkich gier, tworząc pole testowe tak szerokie, jak sama ludzka wyobraźnia.

Definiowanie Uniwersum Ludzkich Gier

„Multiwersum Ludzkich Gier” reprezentuje sumę wszystkich gier stworzonych przez ludzi, by cieszyły ludzi, służąc jako przybliżenie (proxy) dla ludzkiej różnorodności poznawczej. W przeciwieństwie do syntetycznych zadań stworzonych specjalnie na potrzeby trenowania AI, gry te opierają się na ludzkiej intuicji, logice społecznej i fizycznym zdrowym rozsądku. Czyni to je wyjątkowo skutecznym narzędziem do mierzenia tego, jak dobrze AI potrafi poruszać się w świecie zaprojektowanym dla ludzkiej inteligencji ogólnej.

W ramach dowodu koncepcji (proof of concept) badacze wybrali 100 gier na podstawie list przebojów ze Steam i Apple App Store. Gry te nie zostały uproszczone dla AI; zamiast tego ustandaryzowano je w skonteneryzowanych środowiskach, aby zapewnić powtarzalność wyników. Testując najnowocześniejsze modele VLM na tych tytułach, badanie tworzy bezpośrednie porównanie wydajności maszyn ze „średnią ludzką”, ujawniając dokładnie te obszary, w których obecne architektury ustępują rozumowaniu na poziomie ludzkim.

Jak AI GameStore wypada w porównaniu z ARC-AGI w mierzeniu inteligencji?

AI GameStore ocenia AI w szerokim „Multiwersum Ludzkich Gier” z rzeczywistych platform, dostarczając skalowalnych i zróżnicowanych benchmarków wykraczających poza statyczne testy. W przeciwieństwie do tego, ARC-AGI skupia się na zadaniach związanych z rozumowaniem abstrakcyjnym, podczas gdy AI GameStore sprawdza umiejętności praktyczne, takie jak uczenie się modelu świata, pamięć i planowanie w dynamicznych środowiskach gier. Najnowocześniejsze modele uzyskują wyniki poniżej 10% średniej ludzkiej w większości gier AI GameStore, co uwydatnia szersze luki niż te, które mógłby ujawnić ARC-AGI.

Choć ARC-AGI (Abstraction and Reasoning Corpus) jest ceniony za skupienie się na inteligencji płynnej, AI GameStore oferuje szerszy test „zdrowego rozsądku”. Gry wymagają czegoś więcej niż tylko rozpoznawania wzorców; wymagają:

  • Pamięci długotrwałej do śledzenia obiektów i celów na różnych poziomach.
  • Rozumowania przestrzennego do nawigacji w środowiskach 2D i 3D.
  • Planowania strategicznego w celu zarządzania zasobami i przewidywania ruchów przeciwnika.
  • Wnioskowania przyczynowego, aby zrozumieć, jak oddziałują na siebie różne mechaniki gry.
To wielowymiarowe podejście gwarantuje, że mierzona AGI jest funkcjonalna i osadzona w rzeczywistości, a nie czysto matematyczna.

Dlaczego obecne modele AI mają trudności z grami wymagającymi uczenia się modelu świata?

Obecne modele AI zmagają się z grami wymagającymi uczenia się modelu świata, ponieważ brakuje im solidnych zdolności do budowania wewnętrznych reprezentacji fizyki gry, trwałości obiektów i dynamiki środowiska. Ewaluacje w grach AI GameStore pokazują, że modele te szczególnie zawodzą w zadaniach wymagających retencji pamięci między epizodami oraz planowania wieloetapowego. Ujawnia to ograniczenia w osiąganiu AGI na poziomie ludzkim, gdyż modele radzą sobie znacząco gorzej niż ludzie.

Badacze odkryli, że nawet najbardziej zaawansowane Modele wizyjno-językowe osiągnęły mniej niż 10% średniego wyniku ludzkiego w większości ze 100 testowych gier. Główny problem leży w przepaści między przewidywaniem następnego tokenu a rozumieniem przyczyny i skutku. W środowisku gry agent musi przewidzieć, jak jego działania zmienią stan świata. Bez wyrafinowanego modelu świata AI nie może skutecznie planować swoich ruchów, co prowadzi do „halucynowania” strategii, które zawodzą, gdy fizyka lub logika gry nie zgadzają się z wewnętrznymi korelacjami statystycznymi AI.

Przyszłość testowania AGI i skalowalność

Przyszłość oceny AGI leży w dążeniu do rzeczywistości, w której maszyny są oceniane na podstawie ich zdolności do uczenia się dowolnego zadania, a nie tylko tych z góry zdefiniowanych. AI GameStore wyznacza kierunek tej zmiany, oferując platformę, która może skalować się wraz z rozwojem AI. W miarę doskonalenia modeli, „sklep” może być aktualizowany o bardziej złożone gry, zapewniając, że benchmark pozostanie „ruchomym celem”, który opiera się nasyceniu i nadal napędza innowacje w uczeniu maszynowym.

Implikacje tych badań wykraczają poza gaming. Wykorzystując ludzką rozrywkę jako naukową miarę, zespół zidentyfikował konkretne słabości architektoniczne obecnych modeli, szczególnie w zakresie intuicji fizycznej i planowania długoterminowego. Uzupełnienie tych luk jest niezbędne dla rozwoju AGI, która będzie mogła bezpiecznie i skutecznie funkcjonować w świecie fizycznym. W przyszłości zespół zamierza rozszerzyć AI GameStore o jeszcze bardziej zróżnicowane gatunki, dalej przesuwając granice tego, co maszyny potrafią zrozumieć i osiągnąć.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Czym jest AI GameStore i jak działa?
A AI GameStore to skalowalna, otwarta platforma do oceny ogólnej inteligencji maszynowej przy użyciu gier stworzonych przez ludzi dla ludzi. Działa ona poprzez wykorzystanie dużych modeli językowych (LLM) z udziałem ludzi w pętli (humans-in-the-loop) do syntezy nowych, reprezentatywnych gier, automatycznie pozyskując i dostosowując ustandaryzowane, skonteneryzowane warianty z popularnych platform, takich jak Apple App Store i Steam. W ramach dowodu koncepcji wygenerowano 100 takich gier i oceniono czołowe modele wizyjno-językowe na podstawie krótkich epizodów rozgrywki.
Q Jak AI GameStore wypada w porównaniu z ARC-AGI pod względem pomiaru inteligencji?
A AI GameStore ocenia sztuczną inteligencję w szerokim „Multiwersum Ludzkich Gier” z rzeczywistych platform, dostarczając skalowalne i zróżnicowane benchmarki wykraczające poza testy statyczne. W przeciwieństwie do tego, ARC-AGI koncentruje się na zadaniach związanych z abstrakcyjnym rozumowaniem, podczas gdy AI GameStore testuje umiejętności praktyczne, takie jak nauka modelu świata, pamięć i planowanie w dynamicznych środowiskach gier. Czołowe modele uzyskują wyniki poniżej 10% średniej ludzkiej w większości gier AI GameStore, co podkreśla szersze luki w inteligencji, niż mógłby to ujawnić test ARC-AGI.
Q Dlaczego obecne modele AI mają trudności z grami wymagającymi nauki modelu świata?
A Obecne modele AI, w szczególności modele wizyjno-językowe, mają trudności z grami wymagającymi nauki modelu świata, ponieważ brakuje im solidnych zdolności do budowania wewnętrznych reprezentacji fizyki gry, trwałości obiektów i dynamiki środowiska. Ewaluacje w grach AI GameStore pokazują, że modele te zawodzą zwłaszcza w zadaniach wymagających zachowania pamięci między epizodami oraz planowania wieloetapowego. Ujawnia to ograniczenia w osiąganiu ogólnej inteligencji zbliżonej do ludzkiej, ponieważ w tak wymagających grach osiągają one wyniki poniżej 10% wyników uzyskiwanych przez ludzi.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!