What is the APEX-Agents benchmark?

The APEX-Agents benchmark, or AI Productivity Index for Agents, evaluates AI agents' performance on complex, long-horizon, cross-application tasks in professional services like investment banking, management consulting, and corporate law.[1][2] It features 480 tasks across 33 simulated 'worlds' with diverse files and tools (e.g., Calendar, Mail, Spreadsheets), using Pass@1 as the primary metric for single-run success based on expert rubrics.[1] Developed by Mercor, it highlights gaps in agent consistency and capability compared to human professionals.[2][3]

How does GPT-5 compare to Gemini 3 in professional reasoning?

Gemini 3 Pro outperforms GPT-5 on professional reasoning benchmarks like GPQA Diamond (91.9% vs. GPT-5's 85.7% with thinking), establishing it as the leader in pure reasoning and scientific tasks.[1][2] GPT-5 remains competitive, particularly with tools (89.4%) and adaptive reasoning, but trails in novel, complex problems such as Humanity's Last Exam where Gemini 3 scores 37.5%.[1] Later models like GPT-5.2 slightly edge Gemini 3 Pro on GPQA Diamond at 92.4%, though the query focuses on GPT-5.[4]

Can AI agents execute long-horizon cross-application tasks?

Yes, AI agents can execute long-horizon cross-application tasks, as demonstrated by frameworks like MUSE, which achieves state-of-the-art performance on the TAC benchmark involving tasks exceeding 40-100 action steps across multiple applications using a lightweight Gemini-2.5 Flash model.[1] Benchmarks such as APEX-Agents specifically evaluate AI agents on long-horizon, cross-application professional services tasks,[8] while SWE-Bench Pro tests capabilities in complex software engineering scenarios requiring cross-file reasoning.[3] Ongoing advancements, including exponential improvements in task length completion (doubling every 7 months), indicate growing proficiency, though substantial gaps remain in real-world reliability.[2][4]

KI-Benchmark: Gemini 3 & GPT-5.2 führen bei Profi-Aufgaben

Die KI-Landschaft befindet sich in einem grundlegenden Wandel von passiven Konversationsmodellen hin zu autonomen „Agenten“, die in der Lage sind, komplexe, mehrstufige Workflows auszuführen. Da diese Systeme immer näher an die Integration in hochsensible professionelle Umfelder rücken, war der Bedarf an einer strengen, fachbereichsspezifischen Evaluierung noch nie so kritisch wie heute. Die Forscher Bertie Vidgen, Austin Mann und Abby Fennelly haben diese Lücke mit der Einführung des AI Productivity Index for Agents (APEX-Agents) geschlossen – einem neuen Benchmark, der darauf ausgelegt ist, die Wirksamkeit von KI bei Aufgaben zu messen, die traditionell Investmentbanking-Analysten, Managementberatern und Wirtschaftsanwälten vorbehalten sind.

Übergang von Chatbots zu autonomen Agenten

In den letzten Jahren stützte sich der Goldstandard für die Leistung von Large Language Models (LLMs) auf Benchmarks, die statisches logisches Schlussfolgern oder den Abruf von Allgemeinwissen messen. Da sich die Branche jedoch in Richtung agentischer Workflows bewegt – in denen von der KI erwartet wird, dass sie in Dateisystemen navigiert, Software-Tools nutzt und Aktionssequenzen über längere Zeiträume hinweg ausführt –, haben sich herkömmliche Metriken als unzureichend erwiesen. Der APEX-Agents-Benchmark stellt eine Abkehr von diesen einfachen Chat-Schnittstellen dar und konzentriert sich stattdessen auf Aufgaben mit „langem Zeithorizont“ (long-horizon tasks), die ein persistentes Zustandsmanagement und eine anwendungsübergreifende Koordination erfordern.

Das Forschungsteam identifizierte drei Kernsäulen professioneller Dienstleistungen: Investmentbanking, Beratung und Recht. Diese Bereiche wurden ausgewählt, weil sie ein hohes Maß an Präzision erfordern, die Fähigkeit zur Synthese von Daten aus mehreren Quellen (wie Tabellenkalkulationen, PDFs und internen Datenbanken) voraussetzen und die Kapazität verlangen, komplexe, mehrstufige Anweisungen zu befolgen. Durch die Verlagerung des Fokus auf diese hochwertigen kognitiven Sektoren bietet APEX-Agents ein genaueres Abbild des potenziellen Einflusses von KI auf die moderne Arbeitswelt als Allzweck-Benchmarks.

Die Methodik des professionellen Schlussfolgerns

Die Komplexität von APEX-Agents liegt in der Forderung nach einer Ausführung über „lange Zeithorizonte“. Im Gegensatz zu einem Standard-Prompt, der nach einer Zusammenfassung eines Dokuments fragt, könnte eine Aufgabe innerhalb dieses Benchmarks von einem Agenten verlangen, einen Übernahmevertrag einzulesen, spezifische Klauseln mit einem Finanzmodell in Excel abzugleichen und anschließend ein formelles Memorandum in einem Textverarbeitungsprogramm zu entwerfen. Diese Aufgaben werden nicht im luftleeren Raum ausgeführt; der Benchmark bietet eine realistische Arbeitsumgebung inklusive strukturierter Dateisysteme und professioneller Software-Tools.

Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, nutzten die Forscher die Pass@1-Metrik. Diese strenge Bewertungsmethode erfordert, dass der Agent die Aufgabe bereits beim ersten Versuch korrekt abschließt. Dies spiegelt die Erwartungen in einem professionellen Umfeld wider, in dem ständige Überwachung oder mehrere Versuche die Produktivitätsgewinne durch den Einsatz einer KI zunichtemachen würden. Der Benchmark besteht aus 480 diskreten Aufgaben (n=480), die jeweils von einem detaillierten Bewertungsschema (Rubric) und „Gold-Outputs“ begleitet werden – den von Menschen verifizierten korrekten Antworten, die zur Benotung der KI-Leistung herangezogen werden.

Leistungsanalyse: Eine neue Hierarchie der Intelligenz

Die Ergebnisse der ersten Testphase offenbaren eine klare Hierarchie unter den fortschrittlichsten Modellen der Branche. Den Daten zufolge erwies sich Gemini 3 Flash (Thinking=High) als Spitzenreiter mit einem Pass@1-Wert von 24,0 %. Dicht darauf folgten GPT-5.2 (Thinking=High) und Claude Opus 4.5 (Thinking=High). Auch Gemini 3 Pro (Thinking=High) komplettierte die Spitzengruppe der Rangliste. Diese Ergebnisse sind besonders bemerkenswert, da sie die Wirksamkeit von „Denk-“ oder „Schlussfolgerungsmodi“ (Thinking/Reasoning Modes) unterstreichen – Konfigurationen, bei denen dem Modell zusätzliche Rechenzeit eingeräumt wird, um die interne Logik zu verarbeiten, bevor eine externe Aktion generiert wird.

Der Erfolg der „Thinking=High“-Varianten über alle großen Modellfamilien hinweg – Googles Gemini, OpenAIs GPT und Anthropics Claude – deutet darauf hin, dass die Fähigkeit zur Selbstkorrektur und internen Planung das primäre Unterscheidungsmerkmal bei Aufgaben auf professionellem Niveau ist. Dennoch dient selbst der Spitzenwert von 24,0 % als ernüchternde Erinnerung an den aktuellen Stand der Technik. Während diese Modelle signifikante Fortschritte beim logischen Schlussfolgern machen, blieben fast drei Viertel der professionellen Aufgaben im Benchmark ungelöst – oft aufgrund von Fehlern bei der Tool-Integration oder der Akkumulation kleiner Fehler über eine langfristige Ausführung hinweg.

Open-Sourcing professioneller Standards: Archipelago

Ein wesentlicher Beitrag dieser Forschung ist das Engagement für Transparenz und Reproduzierbarkeit. Zusammen mit dem Benchmark selbst haben Vidgen, Mann und Fennelly „Archipelago“ quelloffen zur Verfügung gestellt – eine Infrastruktur, die speziell für die Ausführung und Evaluierung von Agenten entwickelt wurde. Archipelago ermöglicht es anderen Forschern, verschiedene Modelle einzubinden und sie gegen dieselben professionellen Szenarien zu testen, indem es eine standardisierte „Sandbox“ bereitstellt, die eine reale Workstation imitiert.

Durch die Veröffentlichung der Prompts, Rubriken, Gold-Outputs und Metadaten haben die Forscher ein öffentliches Werkzeug für die KI-Community geschaffen. Dieser Open-Source-Ansatz soll eine „Benchmark-Sättigung“ verhindern, bei der Modelle unbeabsichtigt mit den Testdaten trainiert werden. Die Granularität der APEX-Agents-Metadaten – die nicht nur erfassen, ob ein Modell erfolgreich war, sondern auch, an welcher Stelle in der Aktionssequenz es gescheitert ist – bietet Entwicklern eine Roadmap zur Verbesserung der agentischen Ausdauer und der Genauigkeit bei der Tool-Nutzung.

Die Auswirkungen auf die professionelle Arbeit

Die Implikationen der APEX-Agents-Ergebnisse für den Sektor der professionellen Dienstleistungen sind vielfältig. Einerseits markiert die Fähigkeit von Gemini 3 und GPT-5.2, in komplexen Rechts- und Finanzdateien zu navigieren, einen bedeutenden Meilenstein in den KI-Fähigkeiten. Andererseits deuten die niedrigen absoluten Erfolgsquoten darauf hin, dass KI derzeit eher als hochentwickelter Assistent denn als vollständiger Ersatz für menschliche Analysten geeignet ist. Die „Brüchigkeit“ von Agenten – ihre Tendenz zu scheitern, wenn sie mit unerwartetem Softwareverhalten oder zweideutigen Anweisungen konfrontiert werden – bleibt die größte Hürde für eine breite Einführung.

Für Unternehmen im Investmentbanking und im Rechtswesen bietet der Benchmark einen Rahmen für „Build vs. Buy“-Entscheidungen. Er legt nahe, dass allgemeine Modelle zwar immer leistungsfähiger werden, die Lücke zwischen allgemeinem Schlussfolgern und fachbereichsspezifischer Ausführung jedoch nach wie vor riesig ist. Organisationen müssen möglicherweise massiv in spezialisierte „Wrapper“ oder Feinabstimmungen (Fine-Tuning) investieren, um diese Modelle auf das Genauigkeitsniveau von 90 % oder 95 % zu bringen, das für autonome, kundenorientierte Arbeit erforderlich ist.

Zukünftige Richtungen: Der Weg zu 100 %

Mit Blick auf die Zukunft geben die Forscher an, dass die nächste Grenze für APEX-Agents darin bestehen wird, die Vielfalt der professionellen Tools zu erweitern und die Länge der Aufgaben noch weiter zu steigern. Da KI-Unternehmen Modelle mit noch größeren Kontextfenstern und anspruchsvolleren internen Schlussfolgerungsketten veröffentlichen, wird der Benchmark als dauerhafter „Stresstest“ für die Branche dienen. Ziel ist es, die Erfolgsquote von den derzeitigen 24,0 % in Richtung eines Zuverlässigkeitsniveaus zu bewegen, das der menschlichen Arbeitsleistung entspricht.

Letztendlich etabliert APEX-Agents eine neue Basislinie dafür, was es bedeutet, wenn eine KI „produktiv“ ist. Er rückt die Diskussion weg von der Neuartigkeit einer Chat-Schnittstelle hin zur praktischen Realität professioneller Arbeit. Während sich autonome Agenten weiterentwickeln, werden die von Vidgen, Mann und Fennelly bereitgestellten Metriken wahrscheinlich ein entscheidender Maßstab bleiben, um den Übergang von einer KI, die spricht, zu einer KI, die arbeitet, zu messen.

Benchmark für professionelles logisches Denken: Gemini 3 und GPT-5.2 führen bei komplexer KI-Agenten-Leistung

Übergang von Chatbots zu autonomen Agenten

Die Methodik des professionellen Schlussfolgerns

Leistungsanalyse: Eine neue Hierarchie der Intelligenz

Open-Sourcing professioneller Standards: Archipelago

Die Auswirkungen auf die professionelle Arbeit

Zukünftige Richtungen: Der Weg zu 100 %

James Lawson

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare

Übergang von Chatbots zu autonomen Agenten

Die Methodik des professionellen Schlussfolgerns

Leistungsanalyse: Eine neue Hierarchie der Intelligenz

Open-Sourcing professioneller Standards: Archipelago

Die Auswirkungen auf die professionelle Arbeit

Zukünftige Richtungen: Der Weg zu 100 %

James Lawson

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare

4K Wallpaper Available