What is the APEX-Agents benchmark?

The APEX-Agents benchmark, or AI Productivity Index for Agents, evaluates AI agents' performance on complex, long-horizon, cross-application tasks in professional services like investment banking, management consulting, and corporate law.[1][2] It features 480 tasks across 33 simulated 'worlds' with diverse files and tools (e.g., Calendar, Mail, Spreadsheets), using Pass@1 as the primary metric for single-run success based on expert rubrics.[1] Developed by Mercor, it highlights gaps in agent consistency and capability compared to human professionals.[2][3]

How does GPT-5 compare to Gemini 3 in professional reasoning?

Gemini 3 Pro outperforms GPT-5 on professional reasoning benchmarks like GPQA Diamond (91.9% vs. GPT-5's 85.7% with thinking), establishing it as the leader in pure reasoning and scientific tasks.[1][2] GPT-5 remains competitive, particularly with tools (89.4%) and adaptive reasoning, but trails in novel, complex problems such as Humanity's Last Exam where Gemini 3 scores 37.5%.[1] Later models like GPT-5.2 slightly edge Gemini 3 Pro on GPQA Diamond at 92.4%, though the query focuses on GPT-5.[4]

Can AI agents execute long-horizon cross-application tasks?

Yes, AI agents can execute long-horizon cross-application tasks, as demonstrated by frameworks like MUSE, which achieves state-of-the-art performance on the TAC benchmark involving tasks exceeding 40-100 action steps across multiple applications using a lightweight Gemini-2.5 Flash model.[1] Benchmarks such as APEX-Agents specifically evaluate AI agents on long-horizon, cross-application professional services tasks,[8] while SWE-Bench Pro tests capabilities in complex software engineering scenarios requiring cross-file reasoning.[3] Ongoing advancements, including exponential improvements in task length completion (doubling every 7 months), indicate growing proficiency, though substantial gaps remain in real-world reliability.[2][4]

Gemini 3 en GPT-5.2 leiden in professionele AI-benchmark

Het landschap van kunstmatige intelligentie ondergaat een fundamentele verschuiving van passieve conversationele modellen naar autonome "agents" die in staat zijn om complexe workflows met meerdere stappen uit te voeren. Nu deze systemen dichter bij integratie in professionele omgevingen komen waar veel op het spel staat, is de behoefte aan rigoureuze, domeinspecifieke evaluatie urgenter dan ooit. Onderzoekers Bertie Vidgen, Austin Mann en Abby Fennelly hebben dit gat gedicht met de introductie van de AI Productivity Index for Agents (APEX-Agents), een nieuwe benchmark die is ontworpen om de effectiviteit van AI te meten bij taken die traditioneel zijn voorbehouden aan investment banking-analisten, managementconsultants en bedrijfsjuristen.

De overgang van chatbots naar autonome agents

In de afgelopen jaren was de gouden standaard voor de prestaties van Large Language Models (LLM's) gebaseerd op benchmarks die statisch redeneren of het ophalen van algemene kennis meten. Echter, nu de industrie zich richt op agent-gebaseerde workflows — waarbij van AI wordt verwacht dat deze door bestandssystemen navigeert, softwaretools gebruikt en reeksen acties over langere perioden uitvoert — zijn traditionele statistieken onvoldoende gebleken. De APEX-Agents-benchmark vertegenwoordigt een afwijking van deze eenvoudige chat-interfaces en richt zich in plaats daarvan op "long-horizon" taken die persistent statusbeheer en coördinatie tussen verschillende applicaties vereisen.

Het onderzoeksteam identificeerde drie kernpijlers van professionele dienstverlening: investment banking, consultancy en de advocatuur. Deze velden werden geselecteerd omdat ze een hoge mate van precisie vereisen, evenals het vermogen om gegevens uit meerdere bronnen (zoals spreadsheets, PDF's en interne databases) te synthetiseren en het vermogen om complexe instructies in meerdere fasen op te volgen. Door de focus te verleggen naar deze hoogwaardige cognitieve sectoren, biedt APEX-Agents een nauwkeuriger beeld van de potentiële impact van AI op de moderne beroepsbevolking dan benchmarks voor algemene doeleinden.

De methodologie van professioneel redeneren

De complexiteit van APEX-Agents ligt in de nadruk op "long-horizon" uitvoering. In tegenstelling tot een standaard prompt die vraagt om een samenvatting van een document, kan een taak binnen deze benchmark vereisen dat een agent een overnameovereenkomst analyseert, specifieke clausules kruiselings controleert met een financieel model in Excel en vervolgens een formeel memorandum opstelt in een tekstverwerker. Deze taken worden niet in een vacuüm uitgevoerd; de benchmark biedt een realistische werkomgeving, compleet met gestructureerde bestandssystemen en softwaretools van professionele kwaliteit.

Om de betrouwbaarheid van de resultaten te waarborgen, maakten de onderzoekers gebruik van de Pass@1-metriek. Deze rigoureuze scoringsmethode vereist dat de agent de taak bij de eerste poging correct voltooit, wat de verwachtingen van een professionele omgeving weerspiegelt waar voortdurend toezicht of meerdere pogingen de productiviteitswinst van het gebruik van een AI teniet zouden doen. De benchmark bestaat uit 480 afzonderlijke taken (n=480), elk vergezeld van een gedetailleerde rubriek en "gold outputs" — de door mensen geverifieerde correcte antwoorden die worden gebruikt om de prestaties van de AI te beoordelen.

Prestatieanalyse: een nieuwe hiërarchie van intelligentie

De resultaten van de initiële testfase onthullen een duidelijke hiërarchie onder de meest geavanceerde modellen in de sector. Volgens de gegevens kwam Gemini 3 Flash (Thinking=High) naar voren als de best presterende, met een Pass@1-score van 24,0%. Dit werd op de voet gevolgd door GPT-5.2 (Thinking=High) en Claude Opus 4.5 (Thinking=High). Gemini 3 Pro (Thinking=High) maakte de bovenste laag van het klassement compleet. Deze resultaten zijn bijzonder opmerkelijk omdat ze de effectiviteit benadrukken van "thinking"- of "reasoning"-modi — configuraties waarbij het model extra rekentijd krijgt om interne logica te verwerken voordat het een externe actie genereert.

Het succes van de "Thinking=High"-varianten in alle grote modelfamilies — Google’s Gemini, OpenAI’s GPT en Anthropic’s Claude — suggereert dat het vermogen tot zelfcorrectie en interne planning de belangrijkste onderscheidende factor is bij taken van professioneel niveau. Zelfs de hoogste score van 24,0% dient echter als een ontnuchterende herinnering aan de huidige stand van de techniek. Hoewel deze modellen aanzienlijke vooruitgang boeken in redeneren, bleef bijna driekwart van de professionele taken in de benchmark buiten hun bereik, vaak als gevolg van fouten in de integratie van tools of de opeenstapeling van kleine fouten gedurende de uitvoering op lange termijn.

Professionele standaarden open-sourcen: Archipelago

Een belangrijke bijdrage van dit onderzoek is de inzet voor transparantie en reproduceerbaarheid. Samen met de benchmark zelf hebben Vidgen, Mann en Fennelly Archipelago open-sourced, een infrastructuur die specifiek is ontworpen voor de uitvoering en evaluatie van agents. Archipelago stelt andere onderzoekers in staat om verschillende modellen aan te sluiten en ze te testen tegen dezelfde professionele scenario's, wat een gestandaardiseerde "sandbox" biedt die een echt werkstation nabootst.

Door de prompts, rubrieken, gold outputs en metadata vrij te geven, hebben de onderzoekers een publieke nutsvoorziening voor de AI-gemeenschap gecreëerd. Deze open-source benadering is bedoeld om "benchmarkverzadiging" te voorkomen, waarbij modellen onbedoeld worden getraind op de testgegevens. De granulariteit van de APEX-Agents-metadata — die niet alleen bijhoudt of een model is geslaagd, maar ook waar in de reeks acties het faalde — biedt ontwikkelaars een routekaart voor het verbeteren van de persistentie van agents en de nauwkeurigheid van toolgebruik.

De implicaties voor zakelijke arbeid

De implicaties van de APEX-Agents-bevindingen voor de professionele dienstverlening zijn veelzijdig. Aan de ene kant markeert het vermogen van Gemini 3 en GPT-5.2 om door complexe juridische en financiële bestanden te navigeren een belangrijke mijlpaal in de mogelijkheden van AI. Aan de andere kant suggereren de lage absolute succespercentages dat AI momenteel beter geschikt is als een geavanceerde assistent dan als een volledige vervanging voor menselijke analisten. De "broosheid" van agents — hun neiging om te falen bij onverwacht softwaregedrag of dubbelzinnige instructies — blijft de belangrijkste hindernis voor grootschalige adoptie.

Voor bedrijven in investment banking en de advocatuur biedt de benchmark een kader voor "Build vs. Buy"-beslissingen. Het suggereert dat hoewel modellen voor algemene doeleinden capabeler worden, de kloof tussen algemeen redeneren en domeinspecifieke uitvoering nog steeds groot is. Organisaties moeten mogelijk zwaar investeren in gespecialiseerde "wrappers" of fine-tuning om deze modellen op het niveau van 90% of 95% nauwkeurigheid te krijgen dat vereist is voor autonoom klantgericht werk.

Toekomstige richtingen: het pad naar 100%

Vooruitkijkend geven de onderzoekers aan dat de volgende grens voor APEX-Agents het uitbreiden van de diversiteit aan professionele tools zal zijn en het verder vergroten van de lengte van de taken. Naarmate AI-bedrijven modellen uitbrengen met nog grotere contextvensters en complexere interne redeneerketens, zal de benchmark dienen als een voortdurende "stresstest" voor de industrie. Het doel is om het succespercentage te verplaatsen van de huidige 24,0% naar een betrouwbaarheidsniveau dat overeenkomt met menselijke prestaties.

Uiteindelijk stelt APEX-Agents een nieuwe basislijn vast voor wat het betekent voor een AI om "productief" te zijn. Het verplaatst het gesprek voorbij de nieuwigheid van een chat-interface naar de praktische aspecten van professionele arbeid. Naarmate autonome agents zich blijven ontwikkelen, zullen de meetgegevens van Vidgen, Mann en Fennelly waarschijnlijk een cruciale maatstaf blijven voor het meten van de overgang van AI die praat naar AI die werkt.

Professioneel redeneren benchmarken: Gemini 3 en GPT-5.2 koplopers in complexe AI-agentprestaties

De overgang van chatbots naar autonome agents

De methodologie van professioneel redeneren

Prestatieanalyse: een nieuwe hiërarchie van intelligentie

Professionele standaarden open-sourcen: Archipelago

De implicaties voor zakelijke arbeid

Toekomstige richtingen: het pad naar 100%

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

De overgang van chatbots naar autonome agents

De methodologie van professioneel redeneren

Prestatieanalyse: een nieuwe hiërarchie van intelligentie

Professionele standaarden open-sourcen: Archipelago

De implicaties voor zakelijke arbeid

Toekomstige richtingen: het pad naar 100%

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available