AI GameStore:评估通用人工智能 (AGI) 的新框架

Breaking News Technology
A glowing digital screen displaying a colorful collage of many different video game worlds against a dark background.
4K Quality
随着人工智能模型在传统基准测试中逐渐趋于饱和,研究人员正将注意力转向一个更具动态性的试验场:专为人类娱乐设计的庞大且不断演进的游戏库。提议的“AI GameStore”框架旨在通过测试模型在 Steam 和 Apple App Store 等平台上发现的“人类游戏多元宇宙”中的表现,来衡量真正的通用人工智能。

随着传统评估方法无法跟上模型能力的快速提升,追求通用人工智能 (AGI)的进程遇到了关键瓶颈。为了解决这一问题,包括 José Hernández-OralloJoshua B. TenenbaumSamuel J. Gershman 在内的研究人员推出了 AI GameStore,这是一个可扩展的框架,通过“人类游戏多元宇宙”(Multiverse of Human Games)来测试机器智能。通过利用来自 SteamApple App Store 等平台的资源,这个开放式平台提供了比静态基准测试更严格、更动态的环境,旨在衡量智能体在多样化人类经验中的学习和适应能力。

传统 AI 基准测试的饱和

传统的 AI 基准测试通常只评估狭窄的能力,并且随着开发人员针对特定的测试参数进行优化,它们会迅速变得饱和。传统评估往往是静态的,这意味着模型最终可能会“记住”或过拟合数据,导致虚高的分数,无法反映真正的通用智能。这种现象创造了一种虚假的进步感,使得模型在受控环境中表现得能力极强,但在面对新颖的现实世界复杂性时却表现不佳。

静态环境缺乏模拟人类生活不可预测性所需的开放性。当一个基准测试多年保持不变时,它就不再是衡量泛化能力的标准,而变成了衡量专门优化程度的标准。研究团队认为,机器要展示出 AGI,必须在从未见过的环境中表现出熟练度,这需要从固定数据集过渡到庞大且不断发展的交互式挑战库。

什么是 AI GameStore,它是如何运作的?

AI GameStore 是一个可扩展的开放式平台,利用人类游戏(由人类为人类设计的游戏)来评估机器通用智能。它通过采用大语言模型 (LLMs)并结合“人机协同”(humans-in-the-loop)来合成具有代表性的新游戏,自动从 Apple App StoreSteam 等流行平台获取并改编标准化的容器化变体。

该系统的运行机制是识别各种游戏机制,并将其转化为视觉语言模型 (VLMs)可以交互的环境。通过使用“人机协同”的方法,研究人员确保生成的游戏在保持人类娱乐性质精华的同时,对 AI 智能体而言在计算上是可访问的。这一过程允许快速生成具有代表性的人类游戏,创造出一个广阔如人类想象力本身的测试场。

定义人类游戏多元宇宙

“人类游戏多元宇宙”代表了所有由人创造并供人享用的游戏总和,作为人类认知多样性的代名词。与专门为 AI 训练创建的合成任务不同,这些游戏是围绕人类直觉、社交逻辑和物理常识构建的。这使得它们成为衡量 AI 在为人类通用智能设计的世界中导航能力的独特而有效的工具。

在他们的概念验证中,研究人员根据 SteamApple App Store 的热门排行榜选择了 100 款游戏。这些游戏没有针对 AI 进行简化;相反,它们被标准化为容器化环境以确保可重复性。通过在这些游戏上测试前沿 VLMs,该研究在机器表现与“人类平均水平”之间进行了直接比较,揭示了当前架构在哪些方面尚未达到人类水平的推理能力

在衡量智能方面,AI GameStore 与 ARC-AGI 相比如何?

AI GameStore 通过来自真实世界平台的广阔“人类游戏多元宇宙”来评估 AI,提供超越静态测试的可扩展且多样化的基准测试。相比之下,ARC-AGI 侧重于抽象推理任务,而 AI GameStore 则测试动态游戏环境中的世界模型学习、记忆和规划等实际技能。前沿模型在大多数 AI GameStore 游戏中的得分不到人类平均水平的 10%,这突显了比 ARC-AGI 可能揭示的更广泛的差距。

虽然 ARC-AGI(抽象与推理语料库)因其对流体智力的关注而备受推崇,但 AI GameStore 提供了一个更广泛的“常识”测试。游戏不仅需要模式识别,还需要:

  • 长期记忆:跨关卡跟踪物体和目标。
  • 空间推理:在 2D 和 3D 环境中导航。
  • 战略规划:管理资源并预测对手的行动。
  • 因果推理:理解不同游戏机制如何相互作用。
这种多维度的评估方法确保了所衡量的 AGI 是功能性的且植根于现实,而非纯粹的数学运算。

为什么当前的 AI 模型在需要世界模型学习的游戏中表现挣扎?

当前的 AI 模型在需要世界模型学习的游戏中表现挣扎,是因为它们缺乏构建游戏物理、物体持久性和环境动态内部表征的强大能力。对 AI GameStore 游戏的评估表明,这些模型在需要跨剧集记忆保留和多步规划的任务中表现尤为糟糕。这揭示了实现类人 AGI 的局限性,因为模型的表现显著低于人类得分。

研究人员发现,即使是最先进的视觉语言模型,在 100 款测试游戏中的大多数游戏的得分也低于人类平均水平的 10%。核心问题在于预测下一个标记与理解因果关系之间的差距。在游戏环境中,智能体必须预测其行为将如何改变世界的状态。如果没有先进的世界模型,AI 就无法有效地规划其行动,从而导致“幻觉”策略,当游戏的物理或逻辑与 AI 内部的统计相关性不匹配时,这些策略就会失效。

AGI 测试与可扩展性的未来

AGI 评估的未来在于迈向一个以机器学习任何任务的能力(而不仅仅是预定义任务)来评判机器的现实AI GameStore 为这种转变提供了路线图,提供了一个可以随 AI 发展而扩展的平台。随着模型的改进,“商店”可以更新更复杂的游戏,确保基准测试始终是一个“移动目标”,从而抵御饱和并持续推动机器学习的创新。

这项研究的意义延伸到了游戏之外。通过将人类娱乐作为科学尺度,该团队识别出了当前模型中特定的架构弱点,特别是在物理直觉和长程规划方面。解决这些差距对于开发能够在物理世界中安全有效运行的 AGI 至关重要。展望未来,该团队旨在扩展 AI GameStore 以包含更多样化的流派,进一步挑战机器理解和实现的边界。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 什么是 AI GameStore,它是如何工作的?
A AI GameStore 是一个可扩展、开放式的平台,旨在通过“人类游戏”(即由人类为人类设计的游戏)来评估机器通用智能。它通过采用大语言模型 (LLM) 并结合人类参与(humans-in-the-loop)来合成具有代表性的新游戏,并自动从 Apple App Store 和 Steam 等流行平台获取并适配标准化的容器化变体。作为概念验证,它生成了 100 个此类游戏,并针对短期的游戏片段评估了前沿的视觉语言模型。
Q 在衡量智能方面,AI GameStore 与 ARC-AGI 相比有何不同?
A AI GameStore 在来自真实世界平台的广泛“人类游戏多元宇宙”中评估 AI,提供超越静态测试的可扩展且多样化的基准。相比之下,ARC-AGI 侧重于抽象推理任务,而 AI GameStore 则测试动态游戏环境中的实用技能,如世界模型学习、记忆和规划。前沿模型在大多数 AI GameStore 游戏中的得分低于人类平均水平的 10%,这突显了比 ARC-AGI 可能揭示的更广泛的智能差距。
Q 为什么目前的 AI 模型在需要世界模型学习的游戏中表现不佳?
A 目前的 AI 模型,特别是视觉语言模型,在需要世界模型学习的游戏中表现挣扎,因为它们缺乏构建游戏物理、物体持久性和环境动力学内部表征的强大能力。在 AI GameStore 游戏上的评估表明,这些模型在需要跨剧集记忆保留和多步规划的任务中尤其吃力。这揭示了在实现类人通用智能方面的局限性,因为它们在这些具有挑战性的游戏中的表现低于人类得分的 10%。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!