随着传统评估方法无法跟上模型能力的快速提升,追求通用人工智能 (AGI)的进程遇到了关键瓶颈。为了解决这一问题,包括 José Hernández-Orallo、Joshua B. Tenenbaum 和 Samuel J. Gershman 在内的研究人员推出了 AI GameStore,这是一个可扩展的框架,通过“人类游戏多元宇宙”(Multiverse of Human Games)来测试机器智能。通过利用来自 Steam 和 Apple App Store 等平台的资源,这个开放式平台提供了比静态基准测试更严格、更动态的环境,旨在衡量智能体在多样化人类经验中的学习和适应能力。
传统 AI 基准测试的饱和
传统的 AI 基准测试通常只评估狭窄的能力,并且随着开发人员针对特定的测试参数进行优化,它们会迅速变得饱和。传统评估往往是静态的,这意味着模型最终可能会“记住”或过拟合数据,导致虚高的分数,无法反映真正的通用智能。这种现象创造了一种虚假的进步感,使得模型在受控环境中表现得能力极强,但在面对新颖的现实世界复杂性时却表现不佳。
静态环境缺乏模拟人类生活不可预测性所需的开放性。当一个基准测试多年保持不变时,它就不再是衡量泛化能力的标准,而变成了衡量专门优化程度的标准。研究团队认为,机器要展示出 AGI,必须在从未见过的环境中表现出熟练度,这需要从固定数据集过渡到庞大且不断发展的交互式挑战库。
什么是 AI GameStore,它是如何运作的?
AI GameStore 是一个可扩展的开放式平台,利用人类游戏(由人类为人类设计的游戏)来评估机器通用智能。它通过采用大语言模型 (LLMs)并结合“人机协同”(humans-in-the-loop)来合成具有代表性的新游戏,自动从 Apple App Store 和 Steam 等流行平台获取并改编标准化的容器化变体。
该系统的运行机制是识别各种游戏机制,并将其转化为视觉语言模型 (VLMs)可以交互的环境。通过使用“人机协同”的方法,研究人员确保生成的游戏在保持人类娱乐性质精华的同时,对 AI 智能体而言在计算上是可访问的。这一过程允许快速生成具有代表性的人类游戏,创造出一个广阔如人类想象力本身的测试场。
定义人类游戏多元宇宙
“人类游戏多元宇宙”代表了所有由人创造并供人享用的游戏总和,作为人类认知多样性的代名词。与专门为 AI 训练创建的合成任务不同,这些游戏是围绕人类直觉、社交逻辑和物理常识构建的。这使得它们成为衡量 AI 在为人类通用智能设计的世界中导航能力的独特而有效的工具。
在他们的概念验证中,研究人员根据 Steam 和 Apple App Store 的热门排行榜选择了 100 款游戏。这些游戏没有针对 AI 进行简化;相反,它们被标准化为容器化环境以确保可重复性。通过在这些游戏上测试前沿 VLMs,该研究在机器表现与“人类平均水平”之间进行了直接比较,揭示了当前架构在哪些方面尚未达到人类水平的推理能力。
在衡量智能方面,AI GameStore 与 ARC-AGI 相比如何?
AI GameStore 通过来自真实世界平台的广阔“人类游戏多元宇宙”来评估 AI,提供超越静态测试的可扩展且多样化的基准测试。相比之下,ARC-AGI 侧重于抽象推理任务,而 AI GameStore 则测试动态游戏环境中的世界模型学习、记忆和规划等实际技能。前沿模型在大多数 AI GameStore 游戏中的得分不到人类平均水平的 10%,这突显了比 ARC-AGI 可能揭示的更广泛的差距。
虽然 ARC-AGI(抽象与推理语料库)因其对流体智力的关注而备受推崇,但 AI GameStore 提供了一个更广泛的“常识”测试。游戏不仅需要模式识别,还需要:
- 长期记忆:跨关卡跟踪物体和目标。
- 空间推理:在 2D 和 3D 环境中导航。
- 战略规划:管理资源并预测对手的行动。
- 因果推理:理解不同游戏机制如何相互作用。
为什么当前的 AI 模型在需要世界模型学习的游戏中表现挣扎?
当前的 AI 模型在需要世界模型学习的游戏中表现挣扎,是因为它们缺乏构建游戏物理、物体持久性和环境动态内部表征的强大能力。对 AI GameStore 游戏的评估表明,这些模型在需要跨剧集记忆保留和多步规划的任务中表现尤为糟糕。这揭示了实现类人 AGI 的局限性,因为模型的表现显著低于人类得分。
研究人员发现,即使是最先进的视觉语言模型,在 100 款测试游戏中的大多数游戏的得分也低于人类平均水平的 10%。核心问题在于预测下一个标记与理解因果关系之间的差距。在游戏环境中,智能体必须预测其行为将如何改变世界的状态。如果没有先进的世界模型,AI 就无法有效地规划其行动,从而导致“幻觉”策略,当游戏的物理或逻辑与 AI 内部的统计相关性不匹配时,这些策略就会失效。
AGI 测试与可扩展性的未来
AGI 评估的未来在于迈向一个以机器学习任何任务的能力(而不仅仅是预定义任务)来评判机器的现实。AI GameStore 为这种转变提供了路线图,提供了一个可以随 AI 发展而扩展的平台。随着模型的改进,“商店”可以更新更复杂的游戏,确保基准测试始终是一个“移动目标”,从而抵御饱和并持续推动机器学习的创新。
这项研究的意义延伸到了游戏之外。通过将人类娱乐作为科学尺度,该团队识别出了当前模型中特定的架构弱点,特别是在物理直觉和长程规划方面。解决这些差距对于开发能够在物理世界中安全有效运行的 AGI 至关重要。展望未来,该团队旨在扩展 AI GameStore 以包含更多样化的流派,进一步挑战机器理解和实现的边界。
Comments
No comments yet. Be the first!