What is the AI GameStore and how does it work?

The AI GameStore is a scalable, open-ended platform for evaluating machine general intelligence using human games, which are games designed by humans for humans. It works by employing large language models (LLMs) with humans-in-the-loop to synthesize new representative games, automatically sourcing and adapting standardized, containerized variants from popular platforms like the Apple App Store and Steam. As a proof of concept, it generated 100 such games and evaluated frontier vision-language models on short play episodes.

How does AI GameStore compare to ARC-AGI for measuring intelligence?

The AI GameStore evaluates AI on a broad 'Multiverse of Human Games' from real-world platforms, providing scalable and diverse benchmarks beyond static tests. In contrast, ARC-AGI focuses on abstract reasoning tasks, while AI GameStore tests practical skills like world-model learning, memory, and planning in dynamic game environments. Frontier models score under 10% of human average on most AI GameStore games, highlighting broader intelligence gaps than ARC-AGI might reveal.

Why do current AI models struggle with games requiring world-model learning?

Current AI models, particularly vision-language models, struggle with games requiring world-model learning because they lack robust abilities to build internal representations of game physics, object persistence, and environmental dynamics. Evaluations on AI GameStore games show these models especially falter in tasks demanding memory retention across episodes and multi-step planning. This reveals limitations in achieving human-like general intelligence, as they perform below 10% of human scores on such challenging games.

AI GameStoreとは？AGIを評価する動的な新プラットフォーム

汎用人工知能（AGI）の探求は、従来の評価手法が急速なモデル能力の向上に追いつけず、重大なボトルネックに直面しています。これに対処するため、José Hernández-Orallo、Joshua B. Tenenbaum、Samuel J. Gershmanを含む研究チームは、マシンインテリジェンスを「人間のゲームのマルチバース（Multiverse of Human Games）」に照らしてテストするスケーラブルなフレームワーク、「AI GameStore」を導入しました。SteamやApple App Storeなどのプラットフォームのタイトルを活用することで、このオープンエンドなプラットフォームは、静的なベンチマークよりも厳格かつダイナミックな環境を提供し、多様な人間の経験を通じて学習し適応するエージェントの能力を測定します。

従来のAIベンチマークの飽和

従来のAIベンチマークは通常、限定的な能力のみを評価しており、開発者が特定のテストパラメータに合わせて最適化を行うため、すぐに飽和状態に達してしまいます。従来の評価は静的なものが多く、モデルが最終的にデータを「暗記」したり過学習したりする可能性があり、真の汎用知能を反映しない誇張されたスコアにつながります。この現象は、制御された環境ではモデルが非常に有能に見えるものの、未知の現実世界の複雑さに直面すると失敗するという、誤った進歩の感覚を生み出します。

静的な環境には、予測不可能な人間の生活をシミュレートするために必要なオープンエンド性（open-endedness）が欠けています。ベンチマークが何年も変わらないままであれば、それは汎化（generalization）の尺度ではなく、特殊な最適化の尺度となってしまいます。研究チームは、マシンがAGIを実証するためには、これまで見たことのない環境で習熟度を示す必要があり、固定されたデータセットから、進化し続ける広大なインタラクティブな課題のライブラリへと移行する必要があると主張しています。

AI GameStoreとは何か、どのように機能するのか？

AI GameStoreは、人間が人間のために設計した「人間のゲーム」を使用して、マシンの汎用知能を評価するためのスケーラブルでオープンエンドなプラットフォームです。これは、大規模言語モデル（LLM）を人間参加型（human-in-the-loop）で活用して新しい代表的なゲームを合成し、Apple App StoreやSteamといった人気のプラットフォームから標準化・コンテナ化されたバリアントを自動的に調達・適応させることで機能します。

このシステムは、多様なゲームメカニクスを特定し、それをビジョン言語モデル（VLM）が対話できる環境に変換することで動作します。「人間参加型」のアプローチを採用することで、研究者は生成されたゲームが人間向けのエンターテインメントとしての質的な本質を維持しつつ、AIエージェントにとって計算可能な状態であることを保証します。このプロセスにより、代表的な人間のゲームを迅速に生成することが可能になり、人間の想像力と同じくらい幅広いテスト場を作り出します。

「人間のゲームのマルチバース」の定義

「人間のゲームのマルチバース」は、人々が楽しむために人々によって作成されたすべてのゲームの総体を表しており、人間の認知的多様性の代用として機能します。AIトレーニングのために特別に作成された合成タスクとは異なり、これらのゲームは人間の直感、社会的論理、物理的な常識に基づいて構築されています。そのため、人間の汎用知能のために設計された世界をAIがいかにうまくナビゲートできるかを測定するための、独自の非常に効果的なツールとなります。

概念実証において、研究チームはSteamとApple App Storeのトップチャートに基づいた100のゲームを選定しました。これらのゲームはAI向けに簡略化されたものではなく、再現性を確保するためにコンテナ化された環境に標準化されました。これらのタイトルで最先端のVLMをテストすることで、研究はマシンのパフォーマンスと「人間の平均」を直接比較し、現在のアーキテクチャが人間レベルの推論に及ばない箇所を正確に明らかにしています。

知能の測定において、AI GameStoreはARC-AGIとどう違うのか？

AI GameStoreは、現実世界のプラットフォームにある幅広い「人間のゲームのマルチバース」でAIを評価し、静的なテストを超えたスケーラブルで多様なベンチマークを提供します。対照的に、ARC-AGIは抽象的な推論タスクに焦点を当てていますが、AI GameStoreはダイナミックなゲーム環境における世界モデル学習、メモリ、プランニングといった実践的なスキルをテストします。最先端モデルのスコアは、AI GameStoreのほとんどのゲームにおいて人間の平均の10%未満であり、ARC-AGIが明らかにするよりも広範なギャップを浮き彫りにしています。

ARC-AGI（Abstraction and Reasoning Corpus）は流動性知能に焦点を当てていることで高く評価されていますが、AI GameStoreはより広範な「常識」テストを提供します。ゲームには単なるパターン認識以上のものが必要とされます：

レベルを越えてオブジェクトや目的を追跡するための長期記憶。
2Dおよび3D環境をナビゲートするための空間推論。
リソースを管理し、相手の動きを予測するための戦略的計画。
異なるゲームメカニクスがどのように相互作用するかを理解するための因果推論。

この多角的なアプローチにより、測定されるAGIが純粋に数学的なものではなく、機能的で現実に即したものになります。

なぜ現在のAIモデルは世界モデル学習を必要とするゲームに苦戦するのか？

現在のAIモデルが世界モデル学習を必要とするゲームに苦戦するのは、ゲームの物理、オブジェクトの永続性、環境のダイナミクスに関する強固な内部表現を構築する能力が欠けているためです。AI GameStoreのゲームによる評価では、これらのモデルは特に、エピソードをまたいだ記憶保持や多段階のプランニングを必要とするタスクで失敗することが示されています。これは、モデルが人間のスコアを大幅に下回っていることから、人間のようなAGIを実現する上での限界を露呈させています。

研究チームは、最も高度なビジョン言語モデルでさえ、100のテストゲームの大部分において人間の平均スコアの10%未満しか達成できなかったことを発見しました。核心的な問題は、次のトークンを予測することと原因と結果を理解することの間のギャップにあります。ゲーム環境において、エージェントは自分の行動が世界の状況をどう変えるかを予測しなければなりません。洗練された世界モデルがなければ、AIは効果的に動きを計画することができず、ゲームの物理や論理がAI内部の統計的相関と一致しない場合に失敗する「幻覚的な」戦略を立てることになります。

AGIテストの未来とスケーラビリティ

AGI評価の未来は、事前に定義されたタスクだけでなく、あらゆるタスクを学習する能力によってマシンが判断される現実へと向かうことにあります。AI GameStoreは、AIの開発とともに拡張可能なプラットフォームを提供することで、この転換へのロードマップを示しています。モデルが進化するにつれて、「ストア」をより複雑なゲームで更新することができ、ベンチマークが飽和に抵抗し、機械学習におけるイノベーションを推進し続ける「動く標的」であり続けることを保証します。

この研究の意義はゲーミングにとどまりません。人間のエンターテインメントを科学的な尺度として用いることで、研究チームは現在のモデルにおける特定のアーキテクチャ上の弱点、特に物理的な直感と長期的なプランニングに関する弱点を特定しました。これらのギャップを埋めることは、物理世界で安全かつ効果的に動作できるAGIの開発にとって不可欠です。今後、チームはAI GameStoreをさらに多様なジャンルに拡大し、マシンが理解し達成できることの境界にさらなる挑戦を続けることを目指しています。

AI GameStore：AGI評価のための新たなフレームワーク

従来のAIベンチマークの飽和

AI GameStoreとは何か、どのように機能するのか？

「人間のゲームのマルチバース」の定義

知能の測定において、AI GameStoreはARC-AGIとどう違うのか？

なぜ現在のAIモデルは世界モデル学習を必要とするゲームに苦戦するのか？

AGIテストの未来とスケーラビリティ

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

従来のAIベンチマークの飽和

AI GameStoreとは何か、どのように機能するのか？

「人間のゲームのマルチバース」の定義

知能の測定において、AI GameStoreはARC-AGIとどう違うのか？

なぜ現在のAIモデルは世界モデル学習を必要とするゲームに苦戦するのか？

AGIテストの未来とスケーラビリティ

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available