What is the AI GameStore and how does it work?

The AI GameStore is a scalable, open-ended platform for evaluating machine general intelligence using human games, which are games designed by humans for humans. It works by employing large language models (LLMs) with humans-in-the-loop to synthesize new representative games, automatically sourcing and adapting standardized, containerized variants from popular platforms like the Apple App Store and Steam. As a proof of concept, it generated 100 such games and evaluated frontier vision-language models on short play episodes.

How does AI GameStore compare to ARC-AGI for measuring intelligence?

The AI GameStore evaluates AI on a broad 'Multiverse of Human Games' from real-world platforms, providing scalable and diverse benchmarks beyond static tests. In contrast, ARC-AGI focuses on abstract reasoning tasks, while AI GameStore tests practical skills like world-model learning, memory, and planning in dynamic game environments. Frontier models score under 10% of human average on most AI GameStore games, highlighting broader intelligence gaps than ARC-AGI might reveal.

Why do current AI models struggle with games requiring world-model learning?

Current AI models, particularly vision-language models, struggle with games requiring world-model learning because they lack robust abilities to build internal representations of game physics, object persistence, and environmental dynamics. Evaluations on AI GameStore games show these models especially falter in tasks demanding memory retention across episodes and multi-step planning. This reveals limitations in achieving human-like general intelligence, as they perform below 10% of human scores on such challenging games.

Was ist der AI GameStore? Dynamische AGI-Evaluierung

Die Suche nach **Künstlicher Allgemeiner Intelligenz (AGI)** hat einen kritischen Engpass erreicht, da traditionelle Bewertungsmethoden nicht mit der rasanten Entwicklung der Modellfähigkeiten Schritt halten können. Um dieses Problem anzugehen, haben Forscher, darunter **José Hernández-Orallo**, **Joshua B. Tenenbaum** und **Samuel J. Gershman**, den **AI GameStore** eingeführt – ein skalierbares Framework, das Maschinenintelligenz gegen das „Multiversum der menschlichen Spiele“ (Multiverse of Human Games) testet. Durch die Nutzung von Titeln von Plattformen wie **Steam** und dem **Apple App Store** bietet diese offen konzipierte Plattform eine strengere und dynamischere Umgebung als statische Benchmarks und misst die Fähigkeit eines Agenten, über vielfältige menschliche Erfahrungen hinweg zu lernen und sich anzupassen.

Die Sättigung herkömmlicher KI-Benchmarks

Herkömmliche KI-Benchmarks bewerten in der Regel nur eng gefasste Fähigkeiten und sind schnell gesättigt, da Entwickler ihre Modelle auf spezifische Testparameter hin optimieren. Traditionelle Evaluierungen sind oft statisch, was bedeutet, dass Modelle die Daten schließlich „auswendig lernen“ oder überanpassen können, was zu künstlich hohen Werten führt, die keine echte allgemeine Intelligenz widerspiegeln. Dieses Phänomen erzeugt ein falsches Gefühl von Fortschritt, bei dem Modelle in kontrollierten Umgebungen hochgradig fähig erscheinen, aber versagen, wenn sie mit neuartiger, realer Komplexität konfrontiert werden.

Statischen Umgebungen fehlt die **Offenheit (Open-endedness)**, die erforderlich ist, um die unvorhersehbare Natur des menschlichen Lebens zu simulieren. Wenn ein Benchmark über Jahre hinweg unverändert bleibt, hört er auf, ein Maß für **Generalisierung** zu sein, und wird stattdessen zu einem Maß für spezialisierte Optimierung. Das Forschungsteam argumentiert, dass eine Maschine, um **AGI** zu demonstrieren, Kompetenz in Umgebungen beweisen muss, die sie noch nie zuvor gesehen hat, was einen Übergang von festen Datensätzen zu einer riesigen, sich entwickelnden Bibliothek interaktiver Herausforderungen erfordert.

Was ist der AI GameStore und wie funktioniert er?

Der AI GameStore ist eine skalierbare, offene Plattform zur Bewertung allgemeiner Maschinenintelligenz mithilfe menschlicher Spiele, also Spielen, die von Menschen für Menschen entwickelt wurden. Er funktioniert durch den Einsatz von **Großen Sprachmodellen (LLMs)** mit Humans-in-the-loop, um neue repräsentative Spiele zu synthetisieren, wobei automatisch standardisierte, containerisierte Varianten von populären Plattformen wie dem **Apple App Store** und **Steam** bezogen und angepasst werden.

Das System funktioniert, indem es verschiedene Spielmechaniken identifiziert und diese in Umgebungen übersetzt, mit denen **Vision-Language-Modelle (VLMs)** interagieren können. Durch die Verwendung eines „Human-in-the-loop“-Ansatzes stellen die Forscher sicher, dass die generierten Spiele die qualitative Essenz menschlicher Unterhaltung beibehalten und gleichzeitig computertechnisch für KI-Agenten zugänglich bleiben. Dieser Prozess ermöglicht die schnelle Generierung von **repräsentativen menschlichen Spielen** und schafft ein Testfeld, das so breit ist wie die menschliche Vorstellungskraft selbst.

Definition des Multiversums der menschlichen Spiele

Das „Multiversum der menschlichen Spiele“ (Multiverse of Human Games) repräsentiert die Gesamtheit aller Spiele, die von Menschen geschaffen wurden, um von Menschen genossen zu werden, und dient als Stellvertreter für die menschliche kognitive Vielfalt. Im Gegensatz zu synthetischen Aufgaben, die speziell für das KI-Training erstellt wurden, basieren diese Spiele auf **menschlicher Intuition**, sozialer Logik und physikalischem Alltagsverstand. Dies macht sie zu einem einzigartig effektiven Werkzeug, um zu messen, wie gut eine KI in einer Welt navigieren kann, die für **menschliche allgemeine Intelligenz** konzipiert ist.

In ihrem Proof-of-Concept wählten die Forscher 100 Spiele basierend auf den Top-Charts von **Steam** und dem **Apple App Store** aus. Diese Spiele wurden für die KI nicht vereinfacht; stattdessen wurden sie in containerisierte Umgebungen standardisiert, um die Reproduzierbarkeit zu gewährleisten. Durch das Testen von **Frontier-VLMs** auf diesen Titeln schafft die Studie einen direkten Vergleich zwischen der Maschinenleistung und dem „menschlichen Durchschnitt“ und zeigt genau auf, wo aktuelle Architekturen hinter **menschlichem Denken** zurückbleiben.

Wie schneidet der AI GameStore im Vergleich zu ARC-AGI bei der Messung von Intelligenz ab?

Der AI GameStore bewertet KI in einem breiten „Multiversum menschlicher Spiele“ von realen Plattformen aus und bietet skalierbare und vielfältige Benchmarks über statische Tests hinaus. Im Gegensatz dazu konzentriert sich **ARC-AGI** auf abstrakte logische Aufgaben, während der **AI GameStore** praktische Fähigkeiten wie das **Erlernen von Weltmodellen**, Gedächtnis und Planung in dynamischen Spielumgebungen testet. Frontier-Modelle erreichen bei den meisten AI-GameStore-Spielen weniger als 10 % des menschlichen Durchschnitts, was größere Lücken aufzeigt, als **ARC-AGI** möglicherweise offenbart.

Während **ARC-AGI** (der Abstraction and Reasoning Corpus) für seinen Fokus auf **fluide Intelligenz** hoch geschätzt wird, bietet der AI GameStore einen umfassenderen Test des „gesunden Menschenverstands“. Spiele erfordern mehr als nur Mustererkennung; sie erfordern:

**Langzeitgedächtnis**, um Objekte und Ziele über Level hinweg zu verfolgen.
**Räumliches Denken**, um in 2D- und 3D-Umgebungen zu navigieren.
**Strategische Planung**, um Ressourcen zu verwalten und gegnerische Spielzüge vorherzusehen.
**Kausale Inferenz**, um zu verstehen, wie verschiedene Spielmechaniken zusammenwirken.

Dieser mehrdimensionale Ansatz stellt sicher, dass die gemessene **AGI** funktional ist und in der Realität verankert bleibt, anstatt rein mathematisch zu sein.

Warum haben aktuelle KI-Modelle Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern?

Aktuelle KI-Modelle haben Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern, weil ihnen robuste Fähigkeiten fehlen, interne Repräsentationen der Spielphysik, Objektpersistenz und Umgebungsdynamik aufzubauen. Evaluierungen bei **AI-GameStore**-Spielen zeigen, dass diese Modelle besonders bei Aufgaben versagen, die **Merkfähigkeit** über Episoden hinweg und mehrstufige Planung erfordern. Dies verdeutlicht die Einschränkungen beim Erreichen einer menschenähnlichen **AGI**, da die Modelle deutlich unter den menschlichen Ergebnissen abschneiden.

Die Forscher fanden heraus, dass selbst die fortschrittlichsten **Vision-Language-Modelle** bei der Mehrheit der 100 Testspiele weniger als 10 % des menschlichen Durchschnittswerts erreichten. Das Kernproblem liegt in der Kluft zwischen der **Vorhersage des nächsten Tokens** und dem Verständnis von **Ursache und Wirkung**. In einer Spielumgebung muss ein Agent vorhersagen, wie seine Aktionen den Zustand der Welt verändern werden. Ohne ein ausgeklügeltes **Weltmodell** kann die KI ihre Züge nicht effektiv planen, was zu „halluzinierten“ Strategien führt, die scheitern, wenn die Physik oder Logik des Spiels nicht mit den internen statistischen Korrelationen der KI übereinstimmt.

Die Zukunft des AGI-Testens und der Skalierbarkeit

Die Zukunft der AGI-Bewertung liegt im Übergang zu einer Realität, in der Maschinen nach ihrer Fähigkeit beurteilt werden, jede beliebige Aufgabe zu erlernen, nicht nur vordefinierte. Der **AI GameStore** bietet einen Fahrplan für diesen Wandel, indem er eine Plattform bereitstellt, die parallel zur KI-Entwicklung skaliert werden kann. Wenn sich Modelle verbessern, kann der „Store“ mit komplexeren Spielen aktualisiert werden, wodurch sichergestellt wird, dass der Benchmark ein „bewegliches Ziel“ bleibt, das einer **Sättigung** widersteht und weiterhin Innovationen im **maschinellen Lernen** vorantreibt.

Die Auswirkungen dieser Forschung gehen über das Gaming hinaus. Durch die Nutzung von **menschlicher Unterhaltung** als wissenschaftlichem Maßstab hat das Team spezifische architektonische Schwächen aktueller Modelle identifiziert, insbesondere in Bezug auf **physikalische Intuition** und langfristige Planung. Das Schließen dieser Lücken ist unerlässlich für die Entwicklung einer **AGI**, die in der physischen Welt sicher und effektiv agieren kann. In Zukunft will das Team den **AI GameStore** um noch vielfältigere Genres erweitern und so die Grenzen dessen, was Maschinen verstehen und erreichen können, weiter herausfordern.

AI GameStore: Ein neues Framework zur Evaluierung von AGI

Die Sättigung herkömmlicher KI-Benchmarks

Was ist der AI GameStore und wie funktioniert er?

Definition des Multiversums der menschlichen Spiele

Wie schneidet der AI GameStore im Vergleich zu ARC-AGI bei der Messung von Intelligenz ab?

Warum haben aktuelle KI-Modelle Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern?

Die Zukunft des AGI-Testens und der Skalierbarkeit

James Lawson

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare

Die Sättigung herkömmlicher KI-Benchmarks

Was ist der AI GameStore und wie funktioniert er?

Definition des Multiversums der menschlichen Spiele

Wie schneidet der AI GameStore im Vergleich zu ARC-AGI bei der Messung von Intelligenz ab?

Warum haben aktuelle KI-Modelle Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern?

Die Zukunft des AGI-Testens und der Skalierbarkeit

James Lawson

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare

4K Wallpaper Available