专业推理能力评估:Gemini 3 与 GPT-5.2 在复杂 AI 智能体性能表现中领先

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
一项名为 APEX-Agents 的新基准测试正式发布,旨在评估 AI 智能体执行投行和企业律师常见的长程、跨应用任务的有效性。研究显示,虽然 Gemini 3 Flash 和 GPT-5.2 等具备高推理能力的模型取得了重大进展,但现实中复杂的专业环境对自主系统而言仍是巨大的挑战。

人工智能领域正在经历从被动对话模型向能够执行复杂、多步工作流的自主“智能体”的根本转变。随着这些系统日益融入高风险的专业环境,对严谨的特定领域评估的需求从未如此迫切。研究人员 Bertie Vidgen、Austin Mann 和 Abby Fennelly 通过引入 APEX-Agents(智能体 AI 生产力指数)填补了这一空白。这是一项全新的基准测试,旨在衡量 AI 在传统上由投资银行分析师、管理顾问和公司律师承担的任务中的效能。

从聊天机器人到自主智能体的转型

过去几年,大语言模型(LLM)性能的金标准一直依赖于衡量静态推理或通用知识检索的基准测试。然而,随着行业转向智能体工作流——即期望 AI 能够导航文件系统、使用软件工具并在长时间跨度内执行一系列动作——传统指标已被证明力不从心。APEX-Agents 基准测试代表了对这些简单聊天界面的背离,转而关注需要持久状态管理和跨应用协同的“长时程”任务。

研究团队确定了专业服务的三大核心支柱:投资银行、咨询和法律。选择这些领域是因为它们要求高度的精确性、从多个来源(如电子表格、PDF 和内部数据库)综合数据的能力,以及遵循复杂的、多阶段指令的能力。通过将重点转向这些高价值的认知领域,APEX-Agents 比通用基准测试更准确地反映了 AI 对现代劳动力潜在的影响。

专业推理的方法论

APEX-Agents 的复杂性在于其对“长时程”执行的坚持。不同于要求总结文档的标准提示词,该基准测试中的任务可能要求智能体阅读一份收购协议,将特定条款与 Excel 中的财务模型进行交叉比对,然后在文字处理器中起草一份正式备忘录。这些任务并非在真空环境下执行;基准测试提供了一个真实的工作环境,配备了结构化的文件系统和专业级软件工具。

为了确保结果的可靠性,研究人员采用了 Pass@1 指标。这种严苛的评分方法要求智能体在第一次尝试时就正确完成任务,这反映了专业环境的预期:即如果需要不断的监督或多次尝试,使用 AI 带来的生产力收益将荡然无存。该基准测试由 480 个独立任务(n=480)组成,每个任务都配有详细的评分标准和“黄金输出”——即用于为 AI 表现打分的经人工验证的正确答案。

性能分析:全新的智能等级体系

初始测试阶段的结果揭示了行业顶尖模型之间清晰的等级划分。数据显示,Gemini 3 Flash (Thinking=High) 表现最为出色,Pass@1 分数达到 24.0%。紧随其后的是 GPT-5.2 (Thinking=High) 和 Claude Opus 4.5 (Thinking=High)。Gemini 3 Pro (Thinking=High) 也进入了排行榜的第一梯队。这些结果尤其值得关注,因为它们凸显了“思维”或“推理”模式的有效性——在这些配置下,模型在生成外部动作之前会被给予额外的计算时间来处理内部逻辑。

Google 的 Gemini、OpenAI 的 GPT 和 Anthropic 的 Claude 等所有主要模型系列中,“Thinking=High”变体的成功表明,内部自我纠错和规划的能力是专业级任务的主要区别因素。然而,即便是 24.0% 的最高分,也在清醒地提醒人们当前的技术现状。虽然这些模型在推理方面取得了长足进步,但基准测试中近四分之三的专业任务仍超出了它们的能力范围,原因通常是工具集成失败或在长期执行过程中细小错误的累积。

开源专业标准:Archipelago

这项研究的一个重大贡献是对透明度和可复现性的承诺。除了基准测试本身,Vidgen、Mann 和 Fennelly 还开源了 Archipelago,这是一个专为智能体执行和评估设计的基础设施。Archipelago 允许其他研究人员接入不同的模型,并针对相同的专业场景进行测试,提供了一个模拟真实工作站的标准“沙箱”。

通过发布提示词、评分标准、黄金输出和元数据,研究人员为 AI 社区创建了一个公共工具。这种开源方法旨在防止“基准测试饱和”,即模型在不知情的情况下针对测试数据进行了训练。APEX-Agents 元数据的细粒度——不仅跟踪模型是否成功,还跟踪其在动作序列中的哪个环节失败——为开发人员提高智能体的持久性和工具使用准确性提供了路线图。

对企业劳动力的影响

APEX-Agents 的研究结果对专业服务行业的影响是多方面的。一方面,Gemini 3 和 GPT-5.2 导航复杂法律和财务文件的能力标志着 AI 能力的一个重要里程碑。另一方面,极低的绝对成功率表明,AI 目前更适合作为高级助手,而非人类分析师的完全替代品。智能体的“脆弱性”——即在面对意外的软件行为或模糊的指令时容易失败——仍然是广泛应用的主要障碍。

对于投资银行和法律行业的公司来说,该基准测试为“自研还是购买”的决策提供了一个框架。它表明,虽然通用模型的能力越来越强,但通用推理与特定领域执行之间的鸿沟依然巨大。组织可能需要投入大量资源开发专门的“外壳”或进行微调,才能将这些模型的准确率提高到自主面向客户工作所需的 90% 或 95%。

未来方向:通往 100% 之路

展望未来,研究人员表示 APEX-Agents 的下一个前沿将涉及扩大专业工具的多样性,并进一步增加任务时长。随着 AI 公司发布具有更大上下文窗口和更复杂内部推理链的模型,该基准测试将作为行业持久的“压力测试”。目标是将目前 24.0% 的成功率逐步提升至与人类产出相匹配的可靠性水平。

最终,APEX-Agents 为 AI 具备“生产力”确立了新的基准。它将对话从聊天界面的新鲜感转移到了专业劳动的实际应用中。随着自主智能体的不断进化,Vidgen、Mann 和 Fennelly 提供的指标可能会成为衡量 AI 从“能言善辩”向“脚踏实地”转型的重要尺度。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 什么是 APEX-Agents 基准测试?
A APEX-Agents 基准测试(全称 AI 智能体生产力指数)旨在评估 AI 智能体在投资银行、管理咨询和企业法务等专业服务领域处理复杂、长时程、跨应用任务的表现。[1][2] 该基准包含分布在 33 个模拟“世界”中的 480 个任务,涉及多种文件和工具(如日历、邮件、电子表格),并根据专家制定的评分标准,将 Pass@1 作为衡量单次运行成功的主要指标。[1] 该基准由 Mercor 开发,凸显了智能体与人类专业人士在一致性和能力方面的差距。[2][3]
Q 在专业推理方面,GPT-5 与 Gemini 3 相比表现如何?
A Gemini 3 Pro 在 GPQA Diamond 等专业推理基准测试中的表现优于 GPT-5(91.9% 对比开启思考模式下 GPT-5 的 85.7%),确立了其在纯推理和科学任务中的领先地位。[1][2] GPT-5 仍具竞争力,特别是在结合工具使用(89.4%)和自适应推理方面,但在诸如“人类最后考试”(Humanity's Last Exam)等新颖、复杂的问题上落后,Gemini 3 在该测试中的得分为 37.5%。[1] 虽然本次查询关注 GPT-5,但后续模型如 GPT-5.2 在 GPQA Diamond 上以 92.4% 的成绩略微超过了 Gemini 3 Pro。[4]
Q AI 智能体能否执行长时程跨应用任务?
A 是的,AI 智能体可以执行长时程跨应用任务。例如 MUSE 框架通过使用轻量级的 Gemini-2.5 Flash 模型,在涉及跨多个应用且超过 40-100 个动作步骤的 TAC 基准测试任务中取得了最先进的性能。[1] APEX-Agents 等基准测试专门评估 AI 智能体在长时程、跨应用专业服务任务中的表现,[8] 而 SWE-Bench Pro 则测试其在需要跨文件推理的复杂软件工程场景中的能力。[3] 持续的进展(包括任务完成长度每 7 个月翻一番的指数级增长)表明其熟练程度正在提高,尽管在现实世界的可靠性方面仍存在巨大差距。[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!