AI GameStore:AGI評価のための新たなフレームワーク

Breaking News Technology
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
AIモデルが従来のベンチマークで飽和状態に達する中、研究者たちはよりダイナミックな検証の場へと焦点を移しています。それは、人間が楽しむために設計された、膨大で進化し続けるゲームライブラリです。提案された「AI GameStore」フレームワークは、SteamやApple App Storeなどのプラットフォームに存在する「人間のゲームのマルチバース(多種多様なゲーム群)」を通じてモデルをテストすることで、真の汎用人工知能(AGI)を測定することを目指しています。

汎用人工知能(AGI)の探求は、従来の評価手法が急速なモデル能力の向上に追いつけず、重大なボトルネックに直面しています。これに対処するため、José Hernández-OralloJoshua B. TenenbaumSamuel J. Gershmanを含む研究チームは、マシンインテリジェンスを「人間のゲームのマルチバース(Multiverse of Human Games)」に照らしてテストするスケーラブルなフレームワーク、「AI GameStore」を導入しました。SteamApple App Storeなどのプラットフォームのタイトルを活用することで、このオープンエンドなプラットフォームは、静的なベンチマークよりも厳格かつダイナミックな環境を提供し、多様な人間の経験を通じて学習し適応するエージェントの能力を測定します。

従来のAIベンチマークの飽和

従来のAIベンチマークは通常、限定的な能力のみを評価しており、開発者が特定のテストパラメータに合わせて最適化を行うため、すぐに飽和状態に達してしまいます。従来の評価は静的なものが多く、モデルが最終的にデータを「暗記」したり過学習したりする可能性があり、真の汎用知能を反映しない誇張されたスコアにつながります。この現象は、制御された環境ではモデルが非常に有能に見えるものの、未知の現実世界の複雑さに直面すると失敗するという、誤った進歩の感覚を生み出します。

静的な環境には、予測不可能な人間の生活をシミュレートするために必要なオープンエンド性(open-endedness)が欠けています。ベンチマークが何年も変わらないままであれば、それは汎化(generalization)の尺度ではなく、特殊な最適化の尺度となってしまいます。研究チームは、マシンがAGIを実証するためには、これまで見たことのない環境で習熟度を示す必要があり、固定されたデータセットから、進化し続ける広大なインタラクティブな課題のライブラリへと移行する必要があると主張しています。

AI GameStoreとは何か、どのように機能するのか?

AI GameStoreは、人間が人間のために設計した「人間のゲーム」を使用して、マシンの汎用知能を評価するためのスケーラブルでオープンエンドなプラットフォームです。これは、大規模言語モデル(LLM)を人間参加型(human-in-the-loop)で活用して新しい代表的なゲームを合成し、Apple App StoreSteamといった人気のプラットフォームから標準化・コンテナ化されたバリアントを自動的に調達・適応させることで機能します。

このシステムは、多様なゲームメカニクスを特定し、それをビジョン言語モデル(VLM)が対話できる環境に変換することで動作します。「人間参加型」のアプローチを採用することで、研究者は生成されたゲームが人間向けのエンターテインメントとしての質的な本質を維持しつつ、AIエージェントにとって計算可能な状態であることを保証します。このプロセスにより、代表的な人間のゲームを迅速に生成することが可能になり、人間の想像力と同じくらい幅広いテスト場を作り出します。

「人間のゲームのマルチバース」の定義

「人間のゲームのマルチバース」は、人々が楽しむために人々によって作成されたすべてのゲームの総体を表しており、人間の認知的多様性の代用として機能します。AIトレーニングのために特別に作成された合成タスクとは異なり、これらのゲームは人間の直感、社会的論理、物理的な常識に基づいて構築されています。そのため、人間の汎用知能のために設計された世界をAIがいかにうまくナビゲートできるかを測定するための、独自の非常に効果的なツールとなります。

概念実証において、研究チームはSteamApple App Storeのトップチャートに基づいた100のゲームを選定しました。これらのゲームはAI向けに簡略化されたものではなく、再現性を確保するためにコンテナ化された環境に標準化されました。これらのタイトルで最先端のVLMをテストすることで、研究はマシンのパフォーマンスと「人間の平均」を直接比較し、現在のアーキテクチャが人間レベルの推論に及ばない箇所を正確に明らかにしています。

知能の測定において、AI GameStoreはARC-AGIとどう違うのか?

AI GameStoreは、現実世界のプラットフォームにある幅広い「人間のゲームのマルチバース」でAIを評価し、静的なテストを超えたスケーラブルで多様なベンチマークを提供します。対照的に、ARC-AGIは抽象的な推論タスクに焦点を当てていますが、AI GameStoreはダイナミックなゲーム環境における世界モデル学習、メモリ、プランニングといった実践的なスキルをテストします。最先端モデルのスコアは、AI GameStoreのほとんどのゲームにおいて人間の平均の10%未満であり、ARC-AGIが明らかにするよりも広範なギャップを浮き彫りにしています。

ARC-AGI(Abstraction and Reasoning Corpus)は流動性知能に焦点を当てていることで高く評価されていますが、AI GameStoreはより広範な「常識」テストを提供します。ゲームには単なるパターン認識以上のものが必要とされます:

  • レベルを越えてオブジェクトや目的を追跡するための長期記憶
  • 2Dおよび3D環境をナビゲートするための空間推論
  • リソースを管理し、相手の動きを予測するための戦略的計画
  • 異なるゲームメカニクスがどのように相互作用するかを理解するための因果推論
この多角的なアプローチにより、測定されるAGIが純粋に数学的なものではなく、機能的で現実に即したものになります。

なぜ現在のAIモデルは世界モデル学習を必要とするゲームに苦戦するのか?

現在のAIモデルが世界モデル学習を必要とするゲームに苦戦するのは、ゲームの物理、オブジェクトの永続性、環境のダイナミクスに関する強固な内部表現を構築する能力が欠けているためですAI GameStoreのゲームによる評価では、これらのモデルは特に、エピソードをまたいだ記憶保持や多段階のプランニングを必要とするタスクで失敗することが示されています。これは、モデルが人間のスコアを大幅に下回っていることから、人間のようなAGIを実現する上での限界を露呈させています。

研究チームは、最も高度なビジョン言語モデルでさえ、100のテストゲームの大部分において人間の平均スコアの10%未満しか達成できなかったことを発見しました。核心的な問題は、次のトークンを予測すること原因と結果を理解することの間のギャップにあります。ゲーム環境において、エージェントは自分の行動が世界の状況をどう変えるかを予測しなければなりません。洗練された世界モデルがなければ、AIは効果的に動きを計画することができず、ゲームの物理や論理がAI内部の統計的相関と一致しない場合に失敗する「幻覚的な」戦略を立てることになります。

AGIテストの未来とスケーラビリティ

AGI評価の未来は、事前に定義されたタスクだけでなく、あらゆるタスクを学習する能力によってマシンが判断される現実へと向かうことにありますAI GameStoreは、AIの開発とともに拡張可能なプラットフォームを提供することで、この転換へのロードマップを示しています。モデルが進化するにつれて、「ストア」をより複雑なゲームで更新することができ、ベンチマークが飽和に抵抗し、機械学習におけるイノベーションを推進し続ける「動く標的」であり続けることを保証します。

この研究の意義はゲーミングにとどまりません。人間のエンターテインメントを科学的な尺度として用いることで、研究チームは現在のモデルにおける特定のアーキテクチャ上の弱点、特に物理的な直感と長期的なプランニングに関する弱点を特定しました。これらのギャップを埋めることは、物理世界で安全かつ効果的に動作できるAGIの開発にとって不可欠です。今後、チームはAI GameStoreをさらに多様なジャンルに拡大し、マシンが理解し達成できることの境界にさらなる挑戦を続けることを目指しています。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q AI GameStoreとは何ですか、またどのように機能しますか?
A AI GameStoreは、人間が人間のために設計したゲーム(ヒューマンゲーム)を使用して、機械の汎用知能を評価するための、スケーラブルでオープンエンドなプラットフォームです。このプラットフォームは、人間を介在させた大規模言語モデル(LLM)を用いて、新たな代表的ゲームを合成し、Apple App StoreやSteamなどの人気プラットフォームから、標準化・コンテナ化されたバリアントを自動的に調達および適応させることで機能します。概念実証として、100種類のゲームを生成し、短時間のプレイエピソードにおいて最先端の視覚言語モデルを評価しました。
Q 知能の測定において、AI GameStoreはARC-AGIとどのように比較されますか?
A AI GameStoreは、現実世界のプラットフォームから得られた広範な「ヒューマンゲームのマルチバース」に基づいてAIを評価し、静的なテストを超えたスケーラブルで多様なベンチマークを提供します。対照的に、ARC-AGIは抽象的な推論タスクに焦点を当てていますが、AI GameStoreは動的なゲーム環境における世界モデル学習、メモリ、計画などの実践的なスキルをテストします。最先端モデルの多くは、AI GameStoreのほとんどのゲームで人間の平均の10%未満のスコアしか出せず、ARC-AGIが提示するよりも広範な知能の欠如を浮き彫りにしています。
Q 現在のAIモデルが、世界モデル学習を必要とするゲームで苦戦するのはなぜですか?
A 現在のAIモデル、特に視覚言語モデルは、ゲームの物理、物体の永続性、環境のダイナミクスに関する内部表現を構築する堅牢な能力が不足しているため、世界モデル学習を必要とするゲームで苦戦しています。AI GameStoreのゲームにおける評価では、これらのモデルは特に、エピソードをまたぐ記憶の保持や多段階の計画を必要とするタスクにおいて、その能力が著しく低下することが示されています。このような困難なゲームでのパフォーマンスが人間のスコアの10%未満にとどまっていることは、人間のような汎用知能を達成する上での限界を明らかにしています。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!