Die KI-Landschaft befindet sich in einem grundlegenden Wandel von passiven Konversationsmodellen hin zu autonomen „Agenten“, die in der Lage sind, komplexe, mehrstufige Workflows auszuführen. Da diese Systeme immer näher an die Integration in hochsensible professionelle Umfelder rücken, war der Bedarf an einer strengen, fachbereichsspezifischen Evaluierung noch nie so kritisch wie heute. Die Forscher Bertie Vidgen, Austin Mann und Abby Fennelly haben diese Lücke mit der Einführung des AI Productivity Index for Agents (APEX-Agents) geschlossen – einem neuen Benchmark, der darauf ausgelegt ist, die Wirksamkeit von KI bei Aufgaben zu messen, die traditionell Investmentbanking-Analysten, Managementberatern und Wirtschaftsanwälten vorbehalten sind.
Übergang von Chatbots zu autonomen Agenten
In den letzten Jahren stützte sich der Goldstandard für die Leistung von Large Language Models (LLMs) auf Benchmarks, die statisches logisches Schlussfolgern oder den Abruf von Allgemeinwissen messen. Da sich die Branche jedoch in Richtung agentischer Workflows bewegt – in denen von der KI erwartet wird, dass sie in Dateisystemen navigiert, Software-Tools nutzt und Aktionssequenzen über längere Zeiträume hinweg ausführt –, haben sich herkömmliche Metriken als unzureichend erwiesen. Der APEX-Agents-Benchmark stellt eine Abkehr von diesen einfachen Chat-Schnittstellen dar und konzentriert sich stattdessen auf Aufgaben mit „langem Zeithorizont“ (long-horizon tasks), die ein persistentes Zustandsmanagement und eine anwendungsübergreifende Koordination erfordern.
Das Forschungsteam identifizierte drei Kernsäulen professioneller Dienstleistungen: Investmentbanking, Beratung und Recht. Diese Bereiche wurden ausgewählt, weil sie ein hohes Maß an Präzision erfordern, die Fähigkeit zur Synthese von Daten aus mehreren Quellen (wie Tabellenkalkulationen, PDFs und internen Datenbanken) voraussetzen und die Kapazität verlangen, komplexe, mehrstufige Anweisungen zu befolgen. Durch die Verlagerung des Fokus auf diese hochwertigen kognitiven Sektoren bietet APEX-Agents ein genaueres Abbild des potenziellen Einflusses von KI auf die moderne Arbeitswelt als Allzweck-Benchmarks.
Die Methodik des professionellen Schlussfolgerns
Die Komplexität von APEX-Agents liegt in der Forderung nach einer Ausführung über „lange Zeithorizonte“. Im Gegensatz zu einem Standard-Prompt, der nach einer Zusammenfassung eines Dokuments fragt, könnte eine Aufgabe innerhalb dieses Benchmarks von einem Agenten verlangen, einen Übernahmevertrag einzulesen, spezifische Klauseln mit einem Finanzmodell in Excel abzugleichen und anschließend ein formelles Memorandum in einem Textverarbeitungsprogramm zu entwerfen. Diese Aufgaben werden nicht im luftleeren Raum ausgeführt; der Benchmark bietet eine realistische Arbeitsumgebung inklusive strukturierter Dateisysteme und professioneller Software-Tools.
Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, nutzten die Forscher die Pass@1-Metrik. Diese strenge Bewertungsmethode erfordert, dass der Agent die Aufgabe bereits beim ersten Versuch korrekt abschließt. Dies spiegelt die Erwartungen in einem professionellen Umfeld wider, in dem ständige Überwachung oder mehrere Versuche die Produktivitätsgewinne durch den Einsatz einer KI zunichtemachen würden. Der Benchmark besteht aus 480 diskreten Aufgaben (n=480), die jeweils von einem detaillierten Bewertungsschema (Rubric) und „Gold-Outputs“ begleitet werden – den von Menschen verifizierten korrekten Antworten, die zur Benotung der KI-Leistung herangezogen werden.
Leistungsanalyse: Eine neue Hierarchie der Intelligenz
Die Ergebnisse der ersten Testphase offenbaren eine klare Hierarchie unter den fortschrittlichsten Modellen der Branche. Den Daten zufolge erwies sich Gemini 3 Flash (Thinking=High) als Spitzenreiter mit einem Pass@1-Wert von 24,0 %. Dicht darauf folgten GPT-5.2 (Thinking=High) und Claude Opus 4.5 (Thinking=High). Auch Gemini 3 Pro (Thinking=High) komplettierte die Spitzengruppe der Rangliste. Diese Ergebnisse sind besonders bemerkenswert, da sie die Wirksamkeit von „Denk-“ oder „Schlussfolgerungsmodi“ (Thinking/Reasoning Modes) unterstreichen – Konfigurationen, bei denen dem Modell zusätzliche Rechenzeit eingeräumt wird, um die interne Logik zu verarbeiten, bevor eine externe Aktion generiert wird.
Der Erfolg der „Thinking=High“-Varianten über alle großen Modellfamilien hinweg – Googles Gemini, OpenAIs GPT und Anthropics Claude – deutet darauf hin, dass die Fähigkeit zur Selbstkorrektur und internen Planung das primäre Unterscheidungsmerkmal bei Aufgaben auf professionellem Niveau ist. Dennoch dient selbst der Spitzenwert von 24,0 % als ernüchternde Erinnerung an den aktuellen Stand der Technik. Während diese Modelle signifikante Fortschritte beim logischen Schlussfolgern machen, blieben fast drei Viertel der professionellen Aufgaben im Benchmark ungelöst – oft aufgrund von Fehlern bei der Tool-Integration oder der Akkumulation kleiner Fehler über eine langfristige Ausführung hinweg.
Open-Sourcing professioneller Standards: Archipelago
Ein wesentlicher Beitrag dieser Forschung ist das Engagement für Transparenz und Reproduzierbarkeit. Zusammen mit dem Benchmark selbst haben Vidgen, Mann und Fennelly „Archipelago“ quelloffen zur Verfügung gestellt – eine Infrastruktur, die speziell für die Ausführung und Evaluierung von Agenten entwickelt wurde. Archipelago ermöglicht es anderen Forschern, verschiedene Modelle einzubinden und sie gegen dieselben professionellen Szenarien zu testen, indem es eine standardisierte „Sandbox“ bereitstellt, die eine reale Workstation imitiert.
Durch die Veröffentlichung der Prompts, Rubriken, Gold-Outputs und Metadaten haben die Forscher ein öffentliches Werkzeug für die KI-Community geschaffen. Dieser Open-Source-Ansatz soll eine „Benchmark-Sättigung“ verhindern, bei der Modelle unbeabsichtigt mit den Testdaten trainiert werden. Die Granularität der APEX-Agents-Metadaten – die nicht nur erfassen, ob ein Modell erfolgreich war, sondern auch, an welcher Stelle in der Aktionssequenz es gescheitert ist – bietet Entwicklern eine Roadmap zur Verbesserung der agentischen Ausdauer und der Genauigkeit bei der Tool-Nutzung.
Die Auswirkungen auf die professionelle Arbeit
Die Implikationen der APEX-Agents-Ergebnisse für den Sektor der professionellen Dienstleistungen sind vielfältig. Einerseits markiert die Fähigkeit von Gemini 3 und GPT-5.2, in komplexen Rechts- und Finanzdateien zu navigieren, einen bedeutenden Meilenstein in den KI-Fähigkeiten. Andererseits deuten die niedrigen absoluten Erfolgsquoten darauf hin, dass KI derzeit eher als hochentwickelter Assistent denn als vollständiger Ersatz für menschliche Analysten geeignet ist. Die „Brüchigkeit“ von Agenten – ihre Tendenz zu scheitern, wenn sie mit unerwartetem Softwareverhalten oder zweideutigen Anweisungen konfrontiert werden – bleibt die größte Hürde für eine breite Einführung.
Für Unternehmen im Investmentbanking und im Rechtswesen bietet der Benchmark einen Rahmen für „Build vs. Buy“-Entscheidungen. Er legt nahe, dass allgemeine Modelle zwar immer leistungsfähiger werden, die Lücke zwischen allgemeinem Schlussfolgern und fachbereichsspezifischer Ausführung jedoch nach wie vor riesig ist. Organisationen müssen möglicherweise massiv in spezialisierte „Wrapper“ oder Feinabstimmungen (Fine-Tuning) investieren, um diese Modelle auf das Genauigkeitsniveau von 90 % oder 95 % zu bringen, das für autonome, kundenorientierte Arbeit erforderlich ist.
Zukünftige Richtungen: Der Weg zu 100 %
Mit Blick auf die Zukunft geben die Forscher an, dass die nächste Grenze für APEX-Agents darin bestehen wird, die Vielfalt der professionellen Tools zu erweitern und die Länge der Aufgaben noch weiter zu steigern. Da KI-Unternehmen Modelle mit noch größeren Kontextfenstern und anspruchsvolleren internen Schlussfolgerungsketten veröffentlichen, wird der Benchmark als dauerhafter „Stresstest“ für die Branche dienen. Ziel ist es, die Erfolgsquote von den derzeitigen 24,0 % in Richtung eines Zuverlässigkeitsniveaus zu bewegen, das der menschlichen Arbeitsleistung entspricht.
Letztendlich etabliert APEX-Agents eine neue Basislinie dafür, was es bedeutet, wenn eine KI „produktiv“ ist. Er rückt die Diskussion weg von der Neuartigkeit einer Chat-Schnittstelle hin zur praktischen Realität professioneller Arbeit. Während sich autonome Agenten weiterentwickeln, werden die von Vidgen, Mann und Fennelly bereitgestellten Metriken wahrscheinlich ein entscheidender Maßstab bleiben, um den Übergang von einer KI, die spricht, zu einer KI, die arbeitet, zu messen.
Kommentare
Noch keine Kommentare. Seien Sie der Erste!