Benchmark für professionelles logisches Denken: Gemini 3 und GPT-5.2 führen bei komplexer KI-Agenten-Leistung

Eilmeldung Technologie
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Ein neuer Benchmark namens APEX-Agents wurde veröffentlicht, um zu evaluieren, wie effektiv KI-Agenten langfristige, applikationsübergreifende Aufgaben bewältigen können, die üblicherweise von Investmentbankern und Wirtschaftsanwälten übernommen werden. Die Studie zeigt, dass Modelle mit ausgeprägter Reasoning-Fähigkeit wie Gemini 3 Flash und GPT-5.2 zwar signifikante Fortschritte erzielen, die Komplexität realer Arbeitsumgebungen jedoch weiterhin eine große Hürde für autonome Systeme darstellt.

Die KI-Landschaft befindet sich in einem grundlegenden Wandel von passiven Konversationsmodellen hin zu autonomen „Agenten“, die in der Lage sind, komplexe, mehrstufige Workflows auszuführen. Da diese Systeme immer näher an die Integration in hochsensible professionelle Umfelder rücken, war der Bedarf an einer strengen, fachbereichsspezifischen Evaluierung noch nie so kritisch wie heute. Die Forscher Bertie Vidgen, Austin Mann und Abby Fennelly haben diese Lücke mit der Einführung des AI Productivity Index for Agents (APEX-Agents) geschlossen – einem neuen Benchmark, der darauf ausgelegt ist, die Wirksamkeit von KI bei Aufgaben zu messen, die traditionell Investmentbanking-Analysten, Managementberatern und Wirtschaftsanwälten vorbehalten sind.

Übergang von Chatbots zu autonomen Agenten

In den letzten Jahren stützte sich der Goldstandard für die Leistung von Large Language Models (LLMs) auf Benchmarks, die statisches logisches Schlussfolgern oder den Abruf von Allgemeinwissen messen. Da sich die Branche jedoch in Richtung agentischer Workflows bewegt – in denen von der KI erwartet wird, dass sie in Dateisystemen navigiert, Software-Tools nutzt und Aktionssequenzen über längere Zeiträume hinweg ausführt –, haben sich herkömmliche Metriken als unzureichend erwiesen. Der APEX-Agents-Benchmark stellt eine Abkehr von diesen einfachen Chat-Schnittstellen dar und konzentriert sich stattdessen auf Aufgaben mit „langem Zeithorizont“ (long-horizon tasks), die ein persistentes Zustandsmanagement und eine anwendungsübergreifende Koordination erfordern.

Das Forschungsteam identifizierte drei Kernsäulen professioneller Dienstleistungen: Investmentbanking, Beratung und Recht. Diese Bereiche wurden ausgewählt, weil sie ein hohes Maß an Präzision erfordern, die Fähigkeit zur Synthese von Daten aus mehreren Quellen (wie Tabellenkalkulationen, PDFs und internen Datenbanken) voraussetzen und die Kapazität verlangen, komplexe, mehrstufige Anweisungen zu befolgen. Durch die Verlagerung des Fokus auf diese hochwertigen kognitiven Sektoren bietet APEX-Agents ein genaueres Abbild des potenziellen Einflusses von KI auf die moderne Arbeitswelt als Allzweck-Benchmarks.

Die Methodik des professionellen Schlussfolgerns

Die Komplexität von APEX-Agents liegt in der Forderung nach einer Ausführung über „lange Zeithorizonte“. Im Gegensatz zu einem Standard-Prompt, der nach einer Zusammenfassung eines Dokuments fragt, könnte eine Aufgabe innerhalb dieses Benchmarks von einem Agenten verlangen, einen Übernahmevertrag einzulesen, spezifische Klauseln mit einem Finanzmodell in Excel abzugleichen und anschließend ein formelles Memorandum in einem Textverarbeitungsprogramm zu entwerfen. Diese Aufgaben werden nicht im luftleeren Raum ausgeführt; der Benchmark bietet eine realistische Arbeitsumgebung inklusive strukturierter Dateisysteme und professioneller Software-Tools.

Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, nutzten die Forscher die Pass@1-Metrik. Diese strenge Bewertungsmethode erfordert, dass der Agent die Aufgabe bereits beim ersten Versuch korrekt abschließt. Dies spiegelt die Erwartungen in einem professionellen Umfeld wider, in dem ständige Überwachung oder mehrere Versuche die Produktivitätsgewinne durch den Einsatz einer KI zunichtemachen würden. Der Benchmark besteht aus 480 diskreten Aufgaben (n=480), die jeweils von einem detaillierten Bewertungsschema (Rubric) und „Gold-Outputs“ begleitet werden – den von Menschen verifizierten korrekten Antworten, die zur Benotung der KI-Leistung herangezogen werden.

Leistungsanalyse: Eine neue Hierarchie der Intelligenz

Die Ergebnisse der ersten Testphase offenbaren eine klare Hierarchie unter den fortschrittlichsten Modellen der Branche. Den Daten zufolge erwies sich Gemini 3 Flash (Thinking=High) als Spitzenreiter mit einem Pass@1-Wert von 24,0 %. Dicht darauf folgten GPT-5.2 (Thinking=High) und Claude Opus 4.5 (Thinking=High). Auch Gemini 3 Pro (Thinking=High) komplettierte die Spitzengruppe der Rangliste. Diese Ergebnisse sind besonders bemerkenswert, da sie die Wirksamkeit von „Denk-“ oder „Schlussfolgerungsmodi“ (Thinking/Reasoning Modes) unterstreichen – Konfigurationen, bei denen dem Modell zusätzliche Rechenzeit eingeräumt wird, um die interne Logik zu verarbeiten, bevor eine externe Aktion generiert wird.

Der Erfolg der „Thinking=High“-Varianten über alle großen Modellfamilien hinweg – Googles Gemini, OpenAIs GPT und Anthropics Claude – deutet darauf hin, dass die Fähigkeit zur Selbstkorrektur und internen Planung das primäre Unterscheidungsmerkmal bei Aufgaben auf professionellem Niveau ist. Dennoch dient selbst der Spitzenwert von 24,0 % als ernüchternde Erinnerung an den aktuellen Stand der Technik. Während diese Modelle signifikante Fortschritte beim logischen Schlussfolgern machen, blieben fast drei Viertel der professionellen Aufgaben im Benchmark ungelöst – oft aufgrund von Fehlern bei der Tool-Integration oder der Akkumulation kleiner Fehler über eine langfristige Ausführung hinweg.

Open-Sourcing professioneller Standards: Archipelago

Ein wesentlicher Beitrag dieser Forschung ist das Engagement für Transparenz und Reproduzierbarkeit. Zusammen mit dem Benchmark selbst haben Vidgen, Mann und Fennelly „Archipelago“ quelloffen zur Verfügung gestellt – eine Infrastruktur, die speziell für die Ausführung und Evaluierung von Agenten entwickelt wurde. Archipelago ermöglicht es anderen Forschern, verschiedene Modelle einzubinden und sie gegen dieselben professionellen Szenarien zu testen, indem es eine standardisierte „Sandbox“ bereitstellt, die eine reale Workstation imitiert.

Durch die Veröffentlichung der Prompts, Rubriken, Gold-Outputs und Metadaten haben die Forscher ein öffentliches Werkzeug für die KI-Community geschaffen. Dieser Open-Source-Ansatz soll eine „Benchmark-Sättigung“ verhindern, bei der Modelle unbeabsichtigt mit den Testdaten trainiert werden. Die Granularität der APEX-Agents-Metadaten – die nicht nur erfassen, ob ein Modell erfolgreich war, sondern auch, an welcher Stelle in der Aktionssequenz es gescheitert ist – bietet Entwicklern eine Roadmap zur Verbesserung der agentischen Ausdauer und der Genauigkeit bei der Tool-Nutzung.

Die Auswirkungen auf die professionelle Arbeit

Die Implikationen der APEX-Agents-Ergebnisse für den Sektor der professionellen Dienstleistungen sind vielfältig. Einerseits markiert die Fähigkeit von Gemini 3 und GPT-5.2, in komplexen Rechts- und Finanzdateien zu navigieren, einen bedeutenden Meilenstein in den KI-Fähigkeiten. Andererseits deuten die niedrigen absoluten Erfolgsquoten darauf hin, dass KI derzeit eher als hochentwickelter Assistent denn als vollständiger Ersatz für menschliche Analysten geeignet ist. Die „Brüchigkeit“ von Agenten – ihre Tendenz zu scheitern, wenn sie mit unerwartetem Softwareverhalten oder zweideutigen Anweisungen konfrontiert werden – bleibt die größte Hürde für eine breite Einführung.

Für Unternehmen im Investmentbanking und im Rechtswesen bietet der Benchmark einen Rahmen für „Build vs. Buy“-Entscheidungen. Er legt nahe, dass allgemeine Modelle zwar immer leistungsfähiger werden, die Lücke zwischen allgemeinem Schlussfolgern und fachbereichsspezifischer Ausführung jedoch nach wie vor riesig ist. Organisationen müssen möglicherweise massiv in spezialisierte „Wrapper“ oder Feinabstimmungen (Fine-Tuning) investieren, um diese Modelle auf das Genauigkeitsniveau von 90 % oder 95 % zu bringen, das für autonome, kundenorientierte Arbeit erforderlich ist.

Zukünftige Richtungen: Der Weg zu 100 %

Mit Blick auf die Zukunft geben die Forscher an, dass die nächste Grenze für APEX-Agents darin bestehen wird, die Vielfalt der professionellen Tools zu erweitern und die Länge der Aufgaben noch weiter zu steigern. Da KI-Unternehmen Modelle mit noch größeren Kontextfenstern und anspruchsvolleren internen Schlussfolgerungsketten veröffentlichen, wird der Benchmark als dauerhafter „Stresstest“ für die Branche dienen. Ziel ist es, die Erfolgsquote von den derzeitigen 24,0 % in Richtung eines Zuverlässigkeitsniveaus zu bewegen, das der menschlichen Arbeitsleistung entspricht.

Letztendlich etabliert APEX-Agents eine neue Basislinie dafür, was es bedeutet, wenn eine KI „produktiv“ ist. Er rückt die Diskussion weg von der Neuartigkeit einer Chat-Schnittstelle hin zur praktischen Realität professioneller Arbeit. Während sich autonome Agenten weiterentwickeln, werden die von Vidgen, Mann und Fennelly bereitgestellten Metriken wahrscheinlich ein entscheidender Maßstab bleiben, um den Übergang von einer KI, die spricht, zu einer KI, die arbeitet, zu messen.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Leserfragen beantwortet

Q Was ist der APEX-Agents-Benchmark?
A Der APEX-Agents-Benchmark, oder AI Productivity Index for Agents, bewertet die Leistung von KI-Agenten bei komplexen, langfristigen und anwendungsübergreifenden Aufgaben in professionellen Dienstleistungsbereichen wie Investmentbanking, Unternehmensberatung und Gesellschaftsrecht.[1][2] Er umfasst 480 Aufgaben in 33 simulierten 'Welten' mit verschiedenen Dateien und Werkzeugen (z. B. Kalender, E-Mail, Tabellenkalkulation) und nutzt Pass@1 als primäre Metrik für den Erfolg im ersten Versuch basierend auf Experten-Bewertungsschemata.[1] Entwickelt von Mercor, verdeutlicht er Defizite in der Konsistenz und Leistungsfähigkeit von Agenten im Vergleich zu menschlichen Fachkräften.[2][3]
Q Wie schneidet GPT-5 im Vergleich zu Gemini 3 beim professionellen logischen Schlussfolgern ab?
A Gemini 3 Pro übertrifft GPT-5 bei Benchmarks für professionelles logisches Schlussfolgern (Reasoning) wie GPQA Diamond (91,9 % gegenüber 85,7 % bei GPT-5 mit 'Thinking'-Funktion) und etabliert sich damit als führend bei reinem Reasoning und wissenschaftlichen Aufgaben.[1][2] GPT-5 bleibt wettbewerbsfähig, insbesondere beim Einsatz von Werkzeugen (89,4 %) und adaptivem Reasoning, liegt jedoch bei neuartigen, komplexen Problemen wie 'Humanity's Last Exam' zurück, wo Gemini 3 einen Score von 37,5 % erreicht.[1] Spätere Modelle wie GPT-5.2 liegen mit 92,4 % bei GPQA Diamond knapp vor Gemini 3 Pro, obwohl sich die Anfrage auf GPT-5 konzentriert.[4]
Q Können KI-Agenten langfristige, anwendungsübergreifende Aufgaben ausführen?
A Ja, KI-Agenten können langfristige, anwendungsübergreifende Aufgaben ausführen. Dies zeigen Frameworks wie MUSE, das mit einem leichtgewichtigen Gemini-2.5-Flash-Modell Spitzenleistungen beim TAC-Benchmark erzielt, bei dem Aufgaben mehr als 40–100 Handlungsschritte über mehrere Anwendungen hinweg umfassen.[1] Benchmarks wie APEX-Agents bewerten KI-Agenten gezielt bei langfristigen, anwendungsübergreifenden Aufgaben in professionellen Dienstleistungen,[8] während SWE-Bench Pro die Fähigkeiten in komplexen Software-Engineering-Szenarien testet, die dateiübergreifendes Reasoning erfordern.[3] Laufende Fortschritte, einschließlich exponentieller Verbesserungen bei der Bewältigung der Aufgabenlänge (Verdopplung alle 7 Monate), deuten auf eine wachsende Kompetenz hin, obwohl in der realen Zuverlässigkeit noch erhebliche Lücken bestehen.[2][4]

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!