AI GameStore: Ein neues Framework zur Evaluierung von AGI

Eilmeldung Technologie
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
Da KI-Modelle traditionelle Benchmarks zunehmend sättigen, verlagern Forscher ihren Fokus auf ein dynamischeres Testfeld: die riesige, sich ständig weiterentwickelnde Bibliothek von Spielen, die für das menschliche Vergnügen konzipiert wurden. Das vorgeschlagene „AI GameStore“-Framework zielt darauf ab, echte allgemeine Intelligenz zu messen, indem Modelle im „Multiversum menschlicher Spiele“ auf Plattformen wie Steam und dem Apple App Store getestet werden.

Die Suche nach **Künstlicher Allgemeiner Intelligenz (AGI)** hat einen kritischen Engpass erreicht, da traditionelle Bewertungsmethoden nicht mit der rasanten Entwicklung der Modellfähigkeiten Schritt halten können. Um dieses Problem anzugehen, haben Forscher, darunter **José Hernández-Orallo**, **Joshua B. Tenenbaum** und **Samuel J. Gershman**, den **AI GameStore** eingeführt – ein skalierbares Framework, das Maschinenintelligenz gegen das „Multiversum der menschlichen Spiele“ (Multiverse of Human Games) testet. Durch die Nutzung von Titeln von Plattformen wie **Steam** und dem **Apple App Store** bietet diese offen konzipierte Plattform eine strengere und dynamischere Umgebung als statische Benchmarks und misst die Fähigkeit eines Agenten, über vielfältige menschliche Erfahrungen hinweg zu lernen und sich anzupassen.

Die Sättigung herkömmlicher KI-Benchmarks

Herkömmliche KI-Benchmarks bewerten in der Regel nur eng gefasste Fähigkeiten und sind schnell gesättigt, da Entwickler ihre Modelle auf spezifische Testparameter hin optimieren. Traditionelle Evaluierungen sind oft statisch, was bedeutet, dass Modelle die Daten schließlich „auswendig lernen“ oder überanpassen können, was zu künstlich hohen Werten führt, die keine echte allgemeine Intelligenz widerspiegeln. Dieses Phänomen erzeugt ein falsches Gefühl von Fortschritt, bei dem Modelle in kontrollierten Umgebungen hochgradig fähig erscheinen, aber versagen, wenn sie mit neuartiger, realer Komplexität konfrontiert werden.

Statischen Umgebungen fehlt die **Offenheit (Open-endedness)**, die erforderlich ist, um die unvorhersehbare Natur des menschlichen Lebens zu simulieren. Wenn ein Benchmark über Jahre hinweg unverändert bleibt, hört er auf, ein Maß für **Generalisierung** zu sein, und wird stattdessen zu einem Maß für spezialisierte Optimierung. Das Forschungsteam argumentiert, dass eine Maschine, um **AGI** zu demonstrieren, Kompetenz in Umgebungen beweisen muss, die sie noch nie zuvor gesehen hat, was einen Übergang von festen Datensätzen zu einer riesigen, sich entwickelnden Bibliothek interaktiver Herausforderungen erfordert.

Was ist der AI GameStore und wie funktioniert er?

Der AI GameStore ist eine skalierbare, offene Plattform zur Bewertung allgemeiner Maschinenintelligenz mithilfe menschlicher Spiele, also Spielen, die von Menschen für Menschen entwickelt wurden. Er funktioniert durch den Einsatz von **Großen Sprachmodellen (LLMs)** mit Humans-in-the-loop, um neue repräsentative Spiele zu synthetisieren, wobei automatisch standardisierte, containerisierte Varianten von populären Plattformen wie dem **Apple App Store** und **Steam** bezogen und angepasst werden.

Das System funktioniert, indem es verschiedene Spielmechaniken identifiziert und diese in Umgebungen übersetzt, mit denen **Vision-Language-Modelle (VLMs)** interagieren können. Durch die Verwendung eines „Human-in-the-loop“-Ansatzes stellen die Forscher sicher, dass die generierten Spiele die qualitative Essenz menschlicher Unterhaltung beibehalten und gleichzeitig computertechnisch für KI-Agenten zugänglich bleiben. Dieser Prozess ermöglicht die schnelle Generierung von **repräsentativen menschlichen Spielen** und schafft ein Testfeld, das so breit ist wie die menschliche Vorstellungskraft selbst.

Definition des Multiversums der menschlichen Spiele

Das „Multiversum der menschlichen Spiele“ (Multiverse of Human Games) repräsentiert die Gesamtheit aller Spiele, die von Menschen geschaffen wurden, um von Menschen genossen zu werden, und dient als Stellvertreter für die menschliche kognitive Vielfalt. Im Gegensatz zu synthetischen Aufgaben, die speziell für das KI-Training erstellt wurden, basieren diese Spiele auf **menschlicher Intuition**, sozialer Logik und physikalischem Alltagsverstand. Dies macht sie zu einem einzigartig effektiven Werkzeug, um zu messen, wie gut eine KI in einer Welt navigieren kann, die für **menschliche allgemeine Intelligenz** konzipiert ist.

In ihrem Proof-of-Concept wählten die Forscher 100 Spiele basierend auf den Top-Charts von **Steam** und dem **Apple App Store** aus. Diese Spiele wurden für die KI nicht vereinfacht; stattdessen wurden sie in containerisierte Umgebungen standardisiert, um die Reproduzierbarkeit zu gewährleisten. Durch das Testen von **Frontier-VLMs** auf diesen Titeln schafft die Studie einen direkten Vergleich zwischen der Maschinenleistung und dem „menschlichen Durchschnitt“ und zeigt genau auf, wo aktuelle Architekturen hinter **menschlichem Denken** zurückbleiben.

Wie schneidet der AI GameStore im Vergleich zu ARC-AGI bei der Messung von Intelligenz ab?

Der AI GameStore bewertet KI in einem breiten „Multiversum menschlicher Spiele“ von realen Plattformen aus und bietet skalierbare und vielfältige Benchmarks über statische Tests hinaus. Im Gegensatz dazu konzentriert sich **ARC-AGI** auf abstrakte logische Aufgaben, während der **AI GameStore** praktische Fähigkeiten wie das **Erlernen von Weltmodellen**, Gedächtnis und Planung in dynamischen Spielumgebungen testet. Frontier-Modelle erreichen bei den meisten AI-GameStore-Spielen weniger als 10 % des menschlichen Durchschnitts, was größere Lücken aufzeigt, als **ARC-AGI** möglicherweise offenbart.

Während **ARC-AGI** (der Abstraction and Reasoning Corpus) für seinen Fokus auf **fluide Intelligenz** hoch geschätzt wird, bietet der AI GameStore einen umfassenderen Test des „gesunden Menschenverstands“. Spiele erfordern mehr als nur Mustererkennung; sie erfordern:

  • **Langzeitgedächtnis**, um Objekte und Ziele über Level hinweg zu verfolgen.
  • **Räumliches Denken**, um in 2D- und 3D-Umgebungen zu navigieren.
  • **Strategische Planung**, um Ressourcen zu verwalten und gegnerische Spielzüge vorherzusehen.
  • **Kausale Inferenz**, um zu verstehen, wie verschiedene Spielmechaniken zusammenwirken.
Dieser mehrdimensionale Ansatz stellt sicher, dass die gemessene **AGI** funktional ist und in der Realität verankert bleibt, anstatt rein mathematisch zu sein.

Warum haben aktuelle KI-Modelle Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern?

Aktuelle KI-Modelle haben Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern, weil ihnen robuste Fähigkeiten fehlen, interne Repräsentationen der Spielphysik, Objektpersistenz und Umgebungsdynamik aufzubauen. Evaluierungen bei **AI-GameStore**-Spielen zeigen, dass diese Modelle besonders bei Aufgaben versagen, die **Merkfähigkeit** über Episoden hinweg und mehrstufige Planung erfordern. Dies verdeutlicht die Einschränkungen beim Erreichen einer menschenähnlichen **AGI**, da die Modelle deutlich unter den menschlichen Ergebnissen abschneiden.

Die Forscher fanden heraus, dass selbst die fortschrittlichsten **Vision-Language-Modelle** bei der Mehrheit der 100 Testspiele weniger als 10 % des menschlichen Durchschnittswerts erreichten. Das Kernproblem liegt in der Kluft zwischen der **Vorhersage des nächsten Tokens** und dem Verständnis von **Ursache und Wirkung**. In einer Spielumgebung muss ein Agent vorhersagen, wie seine Aktionen den Zustand der Welt verändern werden. Ohne ein ausgeklügeltes **Weltmodell** kann die KI ihre Züge nicht effektiv planen, was zu „halluzinierten“ Strategien führt, die scheitern, wenn die Physik oder Logik des Spiels nicht mit den internen statistischen Korrelationen der KI übereinstimmt.

Die Zukunft des AGI-Testens und der Skalierbarkeit

Die Zukunft der AGI-Bewertung liegt im Übergang zu einer Realität, in der Maschinen nach ihrer Fähigkeit beurteilt werden, jede beliebige Aufgabe zu erlernen, nicht nur vordefinierte. Der **AI GameStore** bietet einen Fahrplan für diesen Wandel, indem er eine Plattform bereitstellt, die parallel zur KI-Entwicklung skaliert werden kann. Wenn sich Modelle verbessern, kann der „Store“ mit komplexeren Spielen aktualisiert werden, wodurch sichergestellt wird, dass der Benchmark ein „bewegliches Ziel“ bleibt, das einer **Sättigung** widersteht und weiterhin Innovationen im **maschinellen Lernen** vorantreibt.

Die Auswirkungen dieser Forschung gehen über das Gaming hinaus. Durch die Nutzung von **menschlicher Unterhaltung** als wissenschaftlichem Maßstab hat das Team spezifische architektonische Schwächen aktueller Modelle identifiziert, insbesondere in Bezug auf **physikalische Intuition** und langfristige Planung. Das Schließen dieser Lücken ist unerlässlich für die Entwicklung einer **AGI**, die in der physischen Welt sicher und effektiv agieren kann. In Zukunft will das Team den **AI GameStore** um noch vielfältigere Genres erweitern und so die Grenzen dessen, was Maschinen verstehen und erreichen können, weiter herausfordern.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Leserfragen beantwortet

Q Was ist der AI GameStore und wie funktioniert er?
A Der AI GameStore ist eine skalierbare, offene Plattform zur Evaluierung allgemeiner künstlicher Intelligenz anhand von „Human Games“ – Spielen, die von Menschen für Menschen entwickelt wurden. Er nutzt große Sprachmodelle (LLMs) unter Einbeziehung von Menschen (Humans-in-the-loop), um neue repräsentative Spiele zu synthetisieren, indem er automatisch standardisierte, containerisierte Varianten von populären Plattformen wie dem Apple App Store und Steam bezieht und anpasst. Als Machbarkeitsnachweis wurden 100 solcher Spiele generiert und führende Vision-Language-Modelle in kurzen Spielepisoden getestet.
Q Wie schneidet der AI GameStore im Vergleich zu ARC-AGI bei der Messung von Intelligenz ab?
A Der AI GameStore evaluiert KI in einem breiten „Multiversum menschlicher Spiele“ von realen Plattformen und bietet damit skalierbare und vielfältige Benchmarks jenseits statischer Tests. Im Gegensatz dazu konzentriert sich ARC-AGI auf abstrakte logische Denkaufgaben, während der AI GameStore praktische Fähigkeiten wie das Erlernen von Weltmodellen, Gedächtnisleistung und Planung in dynamischen Spielumgebungen testet. Führende Modelle erreichen bei den meisten AI GameStore-Spielen weniger als 10 % des menschlichen Durchschnitts, was umfassendere Intelligenzlücken aufzeigt, als ARC-AGI sie möglicherweise offenbart.
Q Warum haben aktuelle KI-Modelle Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern?
A Aktuelle KI-Modelle, insbesondere Vision-Language-Modelle, haben Schwierigkeiten mit Spielen, die das Erlernen von Weltmodellen erfordern, da es ihnen an robusten Fähigkeiten mangelt, interne Repräsentationen von Spielphysik, Objektpermanenz und Umgebungsdynamik aufzubauen. Auswertungen von AI GameStore-Spielen zeigen, dass diese Modelle besonders bei Aufgaben versagen, die Gedächtnisleistung über Episoden hinweg und mehrstufige Planung erfordern. Dies verdeutlicht die Grenzen beim Erreichen einer menschenähnlichen allgemeinen Intelligenz, da sie bei solch anspruchsvollen Spielen weniger als 10 % der menschlichen Punktzahlen erreichen.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!