AI GameStore: 인공일반지능(AGI) 평가를 위한 새로운 프레임워크

Breaking News Technology
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
인공지능 모델들이 기존의 벤치마크를 포화 상태로 만들 정도로 발전함에 따라, 연구자들은 더욱 역동적인 시험대인 인간의 즐거움을 위해 설계된 방대하고 진화하는 게임 라이브러리로 시선을 돌리고 있습니다. 제안된 'AI GameStore' 프레임워크는 Steam 및 Apple App Store와 같은 플랫폼에 존재하는 '인간 게임의 멀티버스(Multiverse of Human Games)'를 통해 모델을 테스트함으로써 진정한 일반 지능을 측정하는 것을 목표로 합니다.

인공일반지능(AGI)을 향한 여정은 기존 평가 방식이 급격히 발전하는 모델의 능력을 따라가지 못하면서 중대한 병목 현상에 직면했습니다. 이를 해결하기 위해 José Hernández-Orallo, Joshua B. Tenenbaum, Samuel J. Gershman을 포함한 연구진은 "인간 게임의 멀티버스(Multiverse of Human Games)"를 통해 기계 지능을 테스트하는 확장 가능한 프레임워크인 AI GameStore를 도입했습니다. SteamApple App Store와 같은 플랫폼의 타이틀을 활용하는 이 개방형 플랫폼은 정적 벤치마크보다 더욱 엄격하고 역동적인 환경을 제공하며, 다양한 인간 경험 전반에 걸친 에이전트의 학습 및 적응 능력을 측정합니다.

기존 AI 벤치마크의 포화 상태

기존 AI 벤치마크는 일반적으로 좁은 범위의 능력만을 평가하며, 개발자가 특정 테스트 매개변수에 맞춰 최적화함에 따라 빠르게 포화 상태에 도달합니다. 전통적인 평가는 정적인 경우가 많아, 모델이 결국 데이터를 "암기"하거나 과적합(overfit)될 수 있으며, 이는 실제 일반 지능을 반영하지 못하는 부풀려진 점수로 이어집니다. 이러한 현상은 통제된 환경에서는 모델이 매우 유능해 보이지만, 새로운 실제 환경의 복잡성에 직면했을 때는 실패하게 만들어 발전에 대한 착각을 불러일으킵니다.

정적인 환경은 인간 삶의 예측 불가능한 특성을 시뮬레이션하는 데 필요한 개방성(open-endedness)이 부족합니다. 벤치마크가 수년간 변하지 않고 유지되면 이는 더 이상 일반화(generalization)의 척도가 아니라 특화된 최적화의 척도가 됩니다. 연구팀은 기계가 AGI를 입증하기 위해서는 이전에 본 적 없는 환경에서 능숙함을 보여야 하며, 고정된 데이터셋에서 상호작용 가능한 방대한 진화형 과제 라이브러리로의 전환이 필요하다고 주장합니다.

AI GameStore란 무엇이며 어떻게 작동하는가?

AI GameStore는 인간이 인간을 위해 설계한 게임인 '인간 게임'을 사용하여 기계의 일반 지능을 평가하는 확장 가능한 개방형 플랫폼입니다. 이 시스템은 대규모 언어 모델(LLM)과 인간 개입(human-in-the-loop)을 활용하여 새로운 대표 게임을 합성하며, Apple App StoreSteam과 같은 인기 플랫폼에서 표준화되고 컨테이너화된 변형 게임을 자동으로 소싱하고 조정합니다.

이 시스템은 다양한 게임 메카닉을 식별하고 이를 시각-언어 모델(Vision-Language Models, VLM)이 상호작용할 수 있는 환경으로 변환하는 방식으로 작동합니다. 연구원들은 "인간 개입(human-in-the-loop)" 방식을 사용하여 생성된 게임이 AI 에이전트가 계산적으로 접근 가능한 수준을 유지하면서도 인간 오락의 질적인 본질을 유지하도록 보장합니다. 이 과정을 통해 대표적인 인간 게임을 신속하게 생성할 수 있으며, 인간의 상상력만큼이나 넓은 테스트 장을 마련할 수 있습니다.

인간 게임의 멀티버스 정의하기

"인간 게임의 멀티버스(Multiverse of Human Games)"는 사람들이 즐기기 위해 만든 모든 게임의 총합을 나타내며, 인간의 인지적 다양성을 대변하는 대리 지표 역할을 합니다. AI 훈련을 위해 특별히 제작된 합성 과제와 달리, 이 게임들은 인간의 직관, 사회적 논리, 물리적 상식에 기반하여 구축되었습니다. 이로 인해 이 게임들은 AI가 인간의 일반 지능을 위해 설계된 세상을 얼마나 잘 탐색할 수 있는지 측정하는 독보적으로 효과적인 도구가 됩니다.

연구진은 개념 증명에서 SteamApple App Store의 인기 차트를 기반으로 100개의 게임을 선정했습니다. 이 게임들은 AI를 위해 단순화되지 않았으며, 오히려 재현성을 보장하기 위해 컨테이너화된 환경으로 표준화되었습니다. 이러한 타이틀로 프런티어 VLM을 테스트함으로써, 이 연구는 기계의 성능과 "인간 평균" 사이의 직접적인 비교를 가능하게 하여 현재의 아키텍처가 인간 수준의 추론에 미치지 못하는 지점을 정확히 밝혀냅니다.

지능 측정에 있어 AI GameStore는 ARC-AGI와 어떻게 다른가?

AI GameStore는 실제 플랫폼의 광범위한 '인간 게임의 멀티버스'를 통해 AI를 평가하며, 정적 테스트를 넘어서는 확장 가능하고 다양한 벤치마크를 제공합니다. 반면 ARC-AGI는 추상적 추론 과제에 집중하는 반면, AI GameStore는 역동적인 게임 환경에서 세계 모델 학습, 기억, 계획과 같은 실질적인 기술을 테스트합니다. 프런티어 모델들은 대부분의 AI GameStore 게임에서 인간 평균의 10% 미만의 점수를 기록했으며, 이는 ARC-AGI가 드러내는 것보다 더 넓은 격차가 존재함을 강조합니다.

ARC-AGI(추상화 및 추론 코퍼스)는 유동 지능에 집중하는 점으로 높이 평가받지만, AI GameStore는 더 광범위한 "상식" 테스트를 제공합니다. 게임은 단순한 패턴 인식을 넘어 다음과 같은 능력을 요구합니다:

  • 레벨 전반에 걸쳐 객체와 목표를 추적하는 장기 기억력.
  • 2D 및 3D 환경을 탐색하는 공간 추론 능력.
  • 자원을 관리하고 상대의 움직임을 예측하는 전략적 계획 수립.
  • 다양한 게임 메카닉이 어떻게 상호작용하는지 이해하는 인과 추론.
이러한 다차원적 접근 방식은 측정되는 AGI가 순수하게 수학적인 것이 아니라 기능적이며 현실에 기반을 두고 있음을 보장합니다.

왜 현재의 AI 모델은 세계 모델 학습이 필요한 게임에서 고전하는가?

현재의 AI 모델은 게임 물리, 객체의 영속성 및 환경 역학에 대한 내부 표현을 구축하는 강력한 능력이 부족하기 때문에 세계 모델 학습이 필요한 게임에서 어려움을 겪습니다. AI GameStore 게임에 대한 평가는 이러한 모델들이 특히 에피소드 간의 기억 유지와 다단계 계획을 요구하는 과제에서 부진함을 보여줍니다. 이는 모델이 인간의 점수보다 현저히 낮은 성능을 보임에 따라, 인간과 유사한 AGI를 달성하는 데 있어 한계가 있음을 드러냅니다.

연구진은 가장 진보된 시각-언어 모델조차 100개의 테스트 게임 대부분에서 인간 평균 점수의 10% 미만을 기록했음을 발견했습니다. 핵심 문제는 다음 토큰 예측원인과 결과의 이해 사이의 간극에 있습니다. 게임 환경에서 에이전트는 자신의 행동이 세상의 상태를 어떻게 변화시킬지 예측해야 합니다. 정교한 세계 모델(world-model)이 없다면 AI는 효과적으로 움직임을 계획할 수 없으며, 게임의 물리나 논리가 AI의 내부 통계적 상관관계와 일치하지 않을 때 실패하는 "환각(hallucinated)" 전략으로 이어집니다.

AGI 테스트의 미래와 확장성

AGI 평가의 미래는 기계가 단순히 미리 정의된 과제가 아니라 어떤 과제든 학습할 수 있는 능력을 갖추었는지에 따라 판단되는 현실로 나아가는 데 있습니다. AI GameStore는 AI 개발과 함께 확장할 수 있는 플랫폼을 제공함으로써 이러한 변화를 위한 로드맵을 제시합니다. 모델이 개선됨에 따라 "스토어"는 더 복잡한 게임으로 업데이트될 수 있으며, 이를 통해 벤치마크가 포화 상태를 거부하고 머신러닝의 혁신을 지속적으로 이끄는 "움직이는 표적"으로 남도록 보장합니다.

이 연구의 시사점은 게임 그 이상으로 확장됩니다. 인간의 오락을 과학적 척도로 활용함으로써 연구팀은 현재 모델에서 특히 물리적 직관과 장거리 계획과 관련된 구체적인 아키텍처 약점을 식별해 냈습니다. 이러한 격차를 해소하는 것은 물리적 세계에서 안전하고 효과적으로 작동할 수 있는 AGI 개발에 필수적입니다. 앞으로 연구팀은 AI GameStore를 더욱 다양한 장르로 확장하여 기계가 이해하고 달성할 수 있는 한계에 계속해서 도전할 계획입니다.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q AI 게임스토어란 무엇이며 어떻게 작동하나요?
A AI 게임스토어는 인간이 인간을 위해 설계한 게임인 '인간용 게임'을 사용하여 기계 일반 지능을 평가하기 위한 확장 가능하고 개방형인 플랫폼입니다. 이 플랫폼은 인간 참여형 대규모 언어 모델(LLM)을 활용하여 새로운 대표 게임들을 합성하고, Apple App Store나 Steam과 같은 대중적인 플랫폼에서 표준화 및 컨테이너화된 변형 게임들을 자동으로 소싱하고 조정하는 방식으로 작동합니다. 개념 증명으로서, 100개의 게임을 생성하고 짧은 플레이 에피소드를 통해 최신 시각-언어 모델들을 평가했습니다.
Q 지능 측정 측면에서 AI 게임스토어는 ARC-AGI와 어떻게 비교됩니까?
A AI 게임스토어는 실제 플랫폼의 광범위한 '인간용 게임 멀티버스'를 기반으로 AI를 평가하여, 정적 테스트를 넘어 확장 가능하고 다양한 벤치마크를 제공합니다. 반면 ARC-AGI는 추상적 추론 과제에 집중하는 데 비해, AI 게임스토어는 역동적인 게임 환경에서의 월드 모델 학습, 기억력, 계획 수립과 같은 실질적인 기술을 테스트합니다. 최신 모델들은 대부분의 AI 게임스토어 게임에서 인간 평균의 10% 미만의 점수를 기록했으며, 이는 ARC-AGI가 보여주는 것보다 더 넓은 범위의 지능 격차를 드러냅니다.
Q 왜 현재의 AI 모델들은 월드 모델 학습이 필요한 게임에서 어려움을 겪나요?
A 특히 시각-언어 모델과 같은 현재의 AI 모델들은 게임 물리, 객체 영속성, 환경 역학에 대한 내부 표현을 구축하는 강력한 능력이 부족하기 때문에 월드 모델 학습이 필요한 게임에서 어려움을 겪습니다. AI 게임스토어 게임에 대한 평가는 이러한 모델들이 특히 에피소드 전체의 기억 유지와 다단계 계획 수립이 요구되는 과제에서 고전한다는 것을 보여줍니다. 이는 이러한 도전적인 게임에서 모델들이 인간 점수의 10% 미만을 기록함에 따라, 인간과 유사한 일반 지능을 달성하는 데 있어 한계가 있음을 시사합니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!