専門的推論のベンチマーク:Gemini 3とGPT-5.2が複雑なAIエージェントのパフォーマンスで首位に

Breaking News テクノロジー
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
投資銀行家や企業弁護士が通常行うような、長期的なスパンで複数のアプリケーションにまたがるタスクをAIエージェントがどの程度効果的に実行できるかを評価する、新しいベンチマーク「APEX-Agents」が公開された。この研究により、Gemini 3 FlashやGPT-5.2といった高度な推論モデルが大きな進歩を遂げている一方で、現実的な専門職環境の複雑さは、自律型システムにとって依然として大きな課題であることが明らかになった。

AIの展望は、受動的な対話型モデルから、複雑で多段階のワークフローを実行可能な自律的な「エージェント」へと根本的な転換を遂げつつある。これらのシステムが責任の重い専門的な環境への統合に近づくにつれ、厳格でドメイン固有の評価の必要性がかつてないほど重要になっている。研究者の Bertie Vidgen、Austin Mann、Abby Fennelly は、投資銀行アナリスト、経営コンサルタント、企業弁護士に従来任されてきたタスクにおけるAIの有効性を測定するために設計された新しいベンチマーク「AI Productivity Index for Agents (APEX-Agents)」を導入し、このギャップに対処した。

チャットボットから自律型エージェントへの移行

過去数年間、大規模言語モデル(LLM)の性能における黄金律は、静的な推論や一般的な知識の検索を測定するベンチマークに依存してきた。しかし、AIがファイルシステムを操作し、ソフトウェアツールを使用し、長期間にわたって一連のアクションを実行することが期待されるエージェント的なワークフローへと業界が軸足を移す中で、従来の指標では不十分であることが証明されている。APEX-Agentsベンチマークは、こうした単純なチャットインターフェースからの脱却を象徴しており、継続的な状態管理とアプリケーション横断的な調整を必要とする「ロングホライズン(長期的な)」タスクに焦点を当てている。

研究チームは、プロフェッショナルサービスの3つの核となる柱として、投資銀行、コンサルティング、法律を特定した。これらの分野が選ばれた理由は、高いレベルの精度、複数のソース(スプレッドシート、PDF、内部データベースなど)からのデータを統合する能力、および複雑で多段階の指示に従う能力が求められるためである。高付加価値な知的セクターに焦点を移すことで、APEX-Agentsは、汎用的なベンチマークよりも、現代の労働力に対するAIの潜在的な影響をより正確に反映している。

プロフェッショナルな推論のメタドロジー

APEX-Agentsの複雑さは、「ロングホライズン」な実行を要求する点にある。文書の要約を求める標準的なプロンプトとは異なり、このベンチマーク内のタスクでは、エージェントが買収合意書を読み込み、特定の条項をExcelの財務モデルと照らし合わせ、その後にワードプロセッサで正式な覚書を起草することが求められる場合がある。これらのタスクは孤立した環境で行われるのではなく、ベンチマークは構造化されたファイルシステムとプロフェッショナルグレードのソフトウェアツールを備えた現実的な作業環境を提供している。

結果の信頼性を確保するため、研究者は「Pass@1」指標を利用した。この厳格なスコアリング手法は、エージェントが最初の試行でタスクを正確に完了することを要求する。これは、絶え間ない監視や複数回のやり直しがAIを使用することによる生産性の向上を打ち消してしまうような、プロフェッショナルな環境の期待を反映したものである。ベンチマークは480の個別のタスク(n=480)で構成され、それぞれに詳細なルーブリックと、AIのパフォーマンスを採点するために使用される人間が検証済みの正解である「ゴールドアウトプット」が付属している。

パフォーマンス分析:知能の新たな階層

初期のテスト段階の結果は、業界で最も先進的なモデルの間に明確な階層があることを明らかにしている。データによると、Gemini 3 Flash (Thinking=High) がトップパフォーマーとして浮上し、24.0%のPass@1スコアを達成した。これに GPT-5.2 (Thinking=High) と Claude Opus 4.5 (Thinking=High) が僅差で続いた。Gemini 3 Pro (Thinking=High) もリーダーボードのトップ層に入った。これらの結果は、モデルが外部のアクションを生成する前に内部ロジックを処理するために追加の計算時間が与えられる構成である「思考(Thinking)」または「推論」モードの有効性を浮き彫りにしているという点で、特に注目に値する。

GoogleのGemini、OpenAIのGPT、AnthropicのClaudeといった主要なモデルファミリーすべてにおいて「Thinking=High」バリアントが成功したことは、自己修正と内部的な計画能力がプロフェッショナルグレードのタスクにおける主要な差別化要因であることを示唆している。しかし、最高スコアである24.0%でさえ、現在の技術水準を冷静に認識させるものである。これらのモデルは推論において大きな進歩を遂げているものの、ベンチマーク内のプロフェッショナルなタスクの4分の3近くが依然としてモデルの手には負えないままであり、その原因の多くはツールの統合の失敗や、長期的な実行における小さなエラーの蓄積によるものである。

プロフェッショナル規格のオープンソース化:Archipelago

この研究の重要な貢献は、透明性と再現性へのコミットメントである。ベンチマーク本体とともに、Vidgen、Mann、Fennelly は、エージェントの実行と評価のために特別に設計されたインフラストラクチャである Archipelago をオープンソース化した。Archipelago を使用することで、他の研究者はさまざまなモデルを組み込み、同じプロフェッショナルなシナリオでテストすることができ、現実世界のワークステーションを模倣した標準化された「サンドボックス」が提供される。

プロンプト、ルーブリック、ゴールドアウトプット、およびメタデータを公開することで、研究者はAIコミュニティのための公共財を作り上げた。このオープンソースアプローチは、モデルが意図せずテストデータでトレーニングされてしまう「ベンチマークの飽和(サチュレーション)」を防ぐことを目的としている。APEX-Agentsのメタデータの粒度は、モデルが成功したかどうかだけでなく、一連のアクションのどこで失敗したかを追跡しており、開発者にエージェントの持続性とツール利用の正確性を向上させるためのロードマップを提供している。

企業の労働力への影響

プロフェッショナルサービスセクターに対する APEX-Agents の調査結果の影響は多岐にわたる。一方で、Gemini 3 や GPT-5.2 が複雑な法務・財務ファイルをナビゲートできる能力は、AIの能力における重要な節目となる。その一方で、絶対的な成功率が低いことは、AIが現状では人間のアナリストの完全な代替というよりも、高度なアシスタントとして適していることを示唆している。エージェントの「脆さ(ブリトルネス)」、つまり予期しないソフトウェアの挙動や曖昧な指示に直面した際に失敗しやすい傾向が、普及への主要な障害となっている。

投資銀行や法律事務所にとって、このベンチマークは「自社開発か購入か(Build vs. Buy)」の意思決定のための枠組みを提供する。これは、汎用モデルがより有能になりつつある一方で、一般的な推論とドメイン固有の実行の間のギャップが依然として膨大であることを示唆している。組織が自律的なクライアント対応業務に求められる90%または95%の精度レベルにこれらのモデルを引き上げるには、特殊な「ラッパー」や微調整(ファインチューニング)に多額の投資を行う必要があるかもしれない。

未来の方向性:100%への道

今後について研究者は、APEX-Agentsの次のフロンティアとして、プロフェッショナルツールの多様性を拡大し、タスクの長さをさらに延ばすことを挙げている。AI企業がさらに大きなコンテキストウィンドウとより洗練された内部推論チェーンを備えたモデルをリリースするにつれ、このベンチマークは業界にとって継続的な「ストレステスト」として機能するだろう。目標は、現在の24.0%という成功率から、人間のアウトプットに匹敵する信頼性のレベルへと前進することである。

最終的に、APEX-AgentsはAIが「生産的」であることの意味について、新たな基準を確立する。それは、会話をチャットインターフェースという目新しさの先へと進め、プロフェッショナルな労働の実用性へと導くものである。自律型エージェントが進化し続ける中で、Vidgen、Mann、Fennelly によって提供された指標は、「話すAI」から「働くAI」への移行を測定するための重要な尺度であり続けるだろう。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q APEX-Agentsベンチマークとは何ですか?
A APEX-Agentsベンチマーク(AI Productivity Index for Agents)は、投資銀行、経営コンサルティング、企業法務などの専門的サービスにおける、複雑で長期にわたる(ロングホライゾン)、アプリケーション横断的なタスクでのAIエージェントのパフォーマンスを評価するものです。[1][2] このベンチマークは、多様なファイルやツール(カレンダー、メール、スプレッドシートなど)を備えた33のシミュレートされた「ワールド」にわたる480のタスクで構成されており、専門家の評価基準に基づく1回の実行での成功率であるPass@1を主要な指標として使用しています。[1] Mercorによって開発され、人間の専門家と比較した際のエージェントの一貫性と能力のギャップを浮き彫りにしています。[2][3]
Q 専門的な推論において、GPT-5はGemini 3と比べてどうですか?
A Gemini 3 Proは、GPQA Diamondなどの専門的な推論ベンチマークにおいてGPT-5を上回っており(91.9%対GPT-5の思考ありでの85.7%)、純粋な推論および科学的タスクにおけるリーダーとしての地位を確立しています。[1][2] GPT-5は依然として競争力があり、特にツールの活用(89.4%)や適応的推論において優れていますが、「Humanity's Last Exam」のような斬新で複雑な問題ではGemini 3が37.5%を記録する一方で、後れを取っています。[1] GPT-5.2のような後のモデルは、GPQA Diamondで92.4%を記録しGemini 3 Proをわずかに上回っていますが、この質問はGPT-5に焦点を当てています。[4]
Q AIエージェントは長期にわたるアプリケーション横断的なタスクを実行できますか?
A はい、AIエージェントは長期にわたるアプリケーション横断的なタスクを実行可能です。これはMUSEのようなフレームワークによって実証されており、軽量なGemini-2.5 Flashモデルを使用して、複数のアプリケーションにわたり40〜100アクションステップを超えるタスクを含むTACベンチマークで最先端のパフォーマンスを達成しています。[1] APEX-Agentsのようなベンチマークは、特に長期にわたるアプリケーション横断的な専門サービス業務においてAIエージェントを評価しており、[8] 一方でSWE-Bench Proは、ファイル横断的な推論を必要とする複雑なソフトウェアエンジニアリングのシナリオにおける能力をテストします。[3] タスク完了の長さにおける指数関数的な改善(7ヶ月ごとに倍増)を含む継続的な進歩は、熟達度が高まっていることを示唆していますが、現実世界での信頼性には依然として大きなギャップが残っています。[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!