什么是 AI GameStore，它是如何工作的？

AI GameStore 是一个可扩展、开放式的平台，旨在通过“人类游戏”（即由人类为人类设计的游戏）来评估机器通用智能。它通过采用大语言模型 (LLM) 并结合人类参与（humans-in-the-loop）来合成具有代表性的新游戏，并自动从 Apple App Store 和 Steam 等流行平台获取并适配标准化的容器化变体。作为概念验证，它生成了 100 个此类游戏，并针对短期的游戏片段评估了前沿的视觉语言模型。

在衡量智能方面，AI GameStore 与 ARC-AGI 相比有何不同？

AI GameStore 在来自真实世界平台的广泛“人类游戏多元宇宙”中评估 AI，提供超越静态测试的可扩展且多样化的基准。相比之下，ARC-AGI 侧重于抽象推理任务，而 AI GameStore 则测试动态游戏环境中的实用技能，如世界模型学习、记忆和规划。前沿模型在大多数 AI GameStore 游戏中的得分低于人类平均水平的 10%，这突显了比 ARC-AGI 可能揭示的更广泛的智能差距。

为什么目前的 AI 模型在需要世界模型学习的游戏中表现不佳？

目前的 AI 模型，特别是视觉语言模型，在需要世界模型学习的游戏中表现挣扎，因为它们缺乏构建游戏物理、物体持久性和环境动力学内部表征的强大能力。在 AI GameStore 游戏上的评估表明，这些模型在需要跨剧集记忆保留和多步规划的任务中尤其吃力。这揭示了在实现类人通用智能方面的局限性，因为它们在这些具有挑战性的游戏中的表现低于人类得分的 10%。

什么是 AI GameStore？动态 AGI 评估平台

随着传统评估方法无法跟上模型能力的快速提升，追求通用人工智能 (AGI)的进程遇到了关键瓶颈。为了解决这一问题，包括 José Hernández-Orallo、Joshua B. Tenenbaum 和 Samuel J. Gershman 在内的研究人员推出了 AI GameStore，这是一个可扩展的框架，通过“人类游戏多元宇宙”（Multiverse of Human Games）来测试机器智能。通过利用来自 Steam 和 Apple App Store 等平台的资源，这个开放式平台提供了比静态基准测试更严格、更动态的环境，旨在衡量智能体在多样化人类经验中的学习和适应能力。

传统 AI 基准测试的饱和

传统的 AI 基准测试通常只评估狭窄的能力，并且随着开发人员针对特定的测试参数进行优化，它们会迅速变得饱和。传统评估往往是静态的，这意味着模型最终可能会“记住”或过拟合数据，导致虚高的分数，无法反映真正的通用智能。这种现象创造了一种虚假的进步感，使得模型在受控环境中表现得能力极强，但在面对新颖的现实世界复杂性时却表现不佳。

静态环境缺乏模拟人类生活不可预测性所需的开放性。当一个基准测试多年保持不变时，它就不再是衡量泛化能力的标准，而变成了衡量专门优化程度的标准。研究团队认为，机器要展示出 AGI，必须在从未见过的环境中表现出熟练度，这需要从固定数据集过渡到庞大且不断发展的交互式挑战库。

什么是 AI GameStore，它是如何运作的？

AI GameStore 是一个可扩展的开放式平台，利用人类游戏（由人类为人类设计的游戏）来评估机器通用智能。它通过采用大语言模型 (LLMs)并结合“人机协同”（humans-in-the-loop）来合成具有代表性的新游戏，自动从 Apple App Store 和 Steam 等流行平台获取并改编标准化的容器化变体。

该系统的运行机制是识别各种游戏机制，并将其转化为视觉语言模型 (VLMs)可以交互的环境。通过使用“人机协同”的方法，研究人员确保生成的游戏在保持人类娱乐性质精华的同时，对 AI 智能体而言在计算上是可访问的。这一过程允许快速生成具有代表性的人类游戏，创造出一个广阔如人类想象力本身的测试场。

定义人类游戏多元宇宙

“人类游戏多元宇宙”代表了所有由人创造并供人享用的游戏总和，作为人类认知多样性的代名词。与专门为 AI 训练创建的合成任务不同，这些游戏是围绕人类直觉、社交逻辑和物理常识构建的。这使得它们成为衡量 AI 在为人类通用智能设计的世界中导航能力的独特而有效的工具。

在他们的概念验证中，研究人员根据 Steam 和 Apple App Store 的热门排行榜选择了 100 款游戏。这些游戏没有针对 AI 进行简化；相反，它们被标准化为容器化环境以确保可重复性。通过在这些游戏上测试前沿 VLMs，该研究在机器表现与“人类平均水平”之间进行了直接比较，揭示了当前架构在哪些方面尚未达到人类水平的推理能力。

在衡量智能方面，AI GameStore 与 ARC-AGI 相比如何？

AI GameStore 通过来自真实世界平台的广阔“人类游戏多元宇宙”来评估 AI，提供超越静态测试的可扩展且多样化的基准测试。相比之下，ARC-AGI 侧重于抽象推理任务，而 AI GameStore 则测试动态游戏环境中的世界模型学习、记忆和规划等实际技能。前沿模型在大多数 AI GameStore 游戏中的得分不到人类平均水平的 10%，这突显了比 ARC-AGI 可能揭示的更广泛的差距。

虽然 ARC-AGI（抽象与推理语料库）因其对流体智力的关注而备受推崇，但 AI GameStore 提供了一个更广泛的“常识”测试。游戏不仅需要模式识别，还需要：

长期记忆：跨关卡跟踪物体和目标。
空间推理：在 2D 和 3D 环境中导航。
战略规划：管理资源并预测对手的行动。
因果推理：理解不同游戏机制如何相互作用。

这种多维度的评估方法确保了所衡量的 AGI 是功能性的且植根于现实，而非纯粹的数学运算。

为什么当前的 AI 模型在需要世界模型学习的游戏中表现挣扎？

当前的 AI 模型在需要世界模型学习的游戏中表现挣扎，是因为它们缺乏构建游戏物理、物体持久性和环境动态内部表征的强大能力。对 AI GameStore 游戏的评估表明，这些模型在需要跨剧集记忆保留和多步规划的任务中表现尤为糟糕。这揭示了实现类人 AGI 的局限性，因为模型的表现显著低于人类得分。

研究人员发现，即使是最先进的视觉语言模型，在 100 款测试游戏中的大多数游戏的得分也低于人类平均水平的 10%。核心问题在于预测下一个标记与理解因果关系之间的差距。在游戏环境中，智能体必须预测其行为将如何改变世界的状态。如果没有先进的世界模型，AI 就无法有效地规划其行动，从而导致“幻觉”策略，当游戏的物理或逻辑与 AI 内部的统计相关性不匹配时，这些策略就会失效。

AGI 测试与可扩展性的未来

AGI 评估的未来在于迈向一个以机器学习任何任务的能力（而不仅仅是预定义任务）来评判机器的现实。AI GameStore 为这种转变提供了路线图，提供了一个可以随 AI 发展而扩展的平台。随着模型的改进，“商店”可以更新更复杂的游戏，确保基准测试始终是一个“移动目标”，从而抵御饱和并持续推动机器学习的创新。

这项研究的意义延伸到了游戏之外。通过将人类娱乐作为科学尺度，该团队识别出了当前模型中特定的架构弱点，特别是在物理直觉和长程规划方面。解决这些差距对于开发能够在物理世界中安全有效运行的 AGI 至关重要。展望未来，该团队旨在扩展 AI GameStore 以包含更多样化的流派，进一步挑战机器理解和实现的边界。

AI GameStore：评估通用人工智能 (AGI) 的新框架

传统 AI 基准测试的饱和

什么是 AI GameStore，它是如何运作的？

定义人类游戏多元宇宙

在衡量智能方面，AI GameStore 与 ARC-AGI 相比如何？

为什么当前的 AI 模型在需要世界模型学习的游戏中表现挣扎？

AGI 测试与可扩展性的未来

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

传统 AI 基准测试的饱和

什么是 AI GameStore，它是如何运作的？

定义人类游戏多元宇宙

在衡量智能方面，AI GameStore 与 ARC-AGI 相比如何？

为什么当前的 AI 模型在需要世界模型学习的游戏中表现挣扎？

AGI 测试与可扩展性的未来

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available