Professioneel redeneren benchmarken: Gemini 3 en GPT-5.2 koplopers in complexe AI-agentprestaties

Breaking News Technologie
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Een nieuwe benchmark genaamd APEX-Agents is uitgebracht om te evalueren hoe effectief AI-agenten langdurige, applicatieoverschrijdende taken kunnen uitvoeren die doorgaans door zakenbankiers en bedrijfsjuristen worden uitgevoerd. De studie onthult dat hoewel modellen met een hoog redeneervermogen zoals Gemini 3 Flash en GPT-5.2 aanzienlijke vooruitgang boeken, de complexiteit van realistische professionele omgevingen nog steeds een geduchte uitdaging vormt voor autonome systemen.

Het landschap van kunstmatige intelligentie ondergaat een fundamentele verschuiving van passieve conversationele modellen naar autonome "agents" die in staat zijn om complexe workflows met meerdere stappen uit te voeren. Nu deze systemen dichter bij integratie in professionele omgevingen komen waar veel op het spel staat, is de behoefte aan rigoureuze, domeinspecifieke evaluatie urgenter dan ooit. Onderzoekers Bertie Vidgen, Austin Mann en Abby Fennelly hebben dit gat gedicht met de introductie van de AI Productivity Index for Agents (APEX-Agents), een nieuwe benchmark die is ontworpen om de effectiviteit van AI te meten bij taken die traditioneel zijn voorbehouden aan investment banking-analisten, managementconsultants en bedrijfsjuristen.

De overgang van chatbots naar autonome agents

In de afgelopen jaren was de gouden standaard voor de prestaties van Large Language Models (LLM's) gebaseerd op benchmarks die statisch redeneren of het ophalen van algemene kennis meten. Echter, nu de industrie zich richt op agent-gebaseerde workflows — waarbij van AI wordt verwacht dat deze door bestandssystemen navigeert, softwaretools gebruikt en reeksen acties over langere perioden uitvoert — zijn traditionele statistieken onvoldoende gebleken. De APEX-Agents-benchmark vertegenwoordigt een afwijking van deze eenvoudige chat-interfaces en richt zich in plaats daarvan op "long-horizon" taken die persistent statusbeheer en coördinatie tussen verschillende applicaties vereisen.

Het onderzoeksteam identificeerde drie kernpijlers van professionele dienstverlening: investment banking, consultancy en de advocatuur. Deze velden werden geselecteerd omdat ze een hoge mate van precisie vereisen, evenals het vermogen om gegevens uit meerdere bronnen (zoals spreadsheets, PDF's en interne databases) te synthetiseren en het vermogen om complexe instructies in meerdere fasen op te volgen. Door de focus te verleggen naar deze hoogwaardige cognitieve sectoren, biedt APEX-Agents een nauwkeuriger beeld van de potentiële impact van AI op de moderne beroepsbevolking dan benchmarks voor algemene doeleinden.

De methodologie van professioneel redeneren

De complexiteit van APEX-Agents ligt in de nadruk op "long-horizon" uitvoering. In tegenstelling tot een standaard prompt die vraagt om een samenvatting van een document, kan een taak binnen deze benchmark vereisen dat een agent een overnameovereenkomst analyseert, specifieke clausules kruiselings controleert met een financieel model in Excel en vervolgens een formeel memorandum opstelt in een tekstverwerker. Deze taken worden niet in een vacuüm uitgevoerd; de benchmark biedt een realistische werkomgeving, compleet met gestructureerde bestandssystemen en softwaretools van professionele kwaliteit.

Om de betrouwbaarheid van de resultaten te waarborgen, maakten de onderzoekers gebruik van de Pass@1-metriek. Deze rigoureuze scoringsmethode vereist dat de agent de taak bij de eerste poging correct voltooit, wat de verwachtingen van een professionele omgeving weerspiegelt waar voortdurend toezicht of meerdere pogingen de productiviteitswinst van het gebruik van een AI teniet zouden doen. De benchmark bestaat uit 480 afzonderlijke taken (n=480), elk vergezeld van een gedetailleerde rubriek en "gold outputs" — de door mensen geverifieerde correcte antwoorden die worden gebruikt om de prestaties van de AI te beoordelen.

Prestatieanalyse: een nieuwe hiërarchie van intelligentie

De resultaten van de initiële testfase onthullen een duidelijke hiërarchie onder de meest geavanceerde modellen in de sector. Volgens de gegevens kwam Gemini 3 Flash (Thinking=High) naar voren als de best presterende, met een Pass@1-score van 24,0%. Dit werd op de voet gevolgd door GPT-5.2 (Thinking=High) en Claude Opus 4.5 (Thinking=High). Gemini 3 Pro (Thinking=High) maakte de bovenste laag van het klassement compleet. Deze resultaten zijn bijzonder opmerkelijk omdat ze de effectiviteit benadrukken van "thinking"- of "reasoning"-modi — configuraties waarbij het model extra rekentijd krijgt om interne logica te verwerken voordat het een externe actie genereert.

Het succes van de "Thinking=High"-varianten in alle grote modelfamilies — Google’s Gemini, OpenAI’s GPT en Anthropic’s Claude — suggereert dat het vermogen tot zelfcorrectie en interne planning de belangrijkste onderscheidende factor is bij taken van professioneel niveau. Zelfs de hoogste score van 24,0% dient echter als een ontnuchterende herinnering aan de huidige stand van de techniek. Hoewel deze modellen aanzienlijke vooruitgang boeken in redeneren, bleef bijna driekwart van de professionele taken in de benchmark buiten hun bereik, vaak als gevolg van fouten in de integratie van tools of de opeenstapeling van kleine fouten gedurende de uitvoering op lange termijn.

Professionele standaarden open-sourcen: Archipelago

Een belangrijke bijdrage van dit onderzoek is de inzet voor transparantie en reproduceerbaarheid. Samen met de benchmark zelf hebben Vidgen, Mann en Fennelly Archipelago open-sourced, een infrastructuur die specifiek is ontworpen voor de uitvoering en evaluatie van agents. Archipelago stelt andere onderzoekers in staat om verschillende modellen aan te sluiten en ze te testen tegen dezelfde professionele scenario's, wat een gestandaardiseerde "sandbox" biedt die een echt werkstation nabootst.

Door de prompts, rubrieken, gold outputs en metadata vrij te geven, hebben de onderzoekers een publieke nutsvoorziening voor de AI-gemeenschap gecreëerd. Deze open-source benadering is bedoeld om "benchmarkverzadiging" te voorkomen, waarbij modellen onbedoeld worden getraind op de testgegevens. De granulariteit van de APEX-Agents-metadata — die niet alleen bijhoudt of een model is geslaagd, maar ook waar in de reeks acties het faalde — biedt ontwikkelaars een routekaart voor het verbeteren van de persistentie van agents en de nauwkeurigheid van toolgebruik.

De implicaties voor zakelijke arbeid

De implicaties van de APEX-Agents-bevindingen voor de professionele dienstverlening zijn veelzijdig. Aan de ene kant markeert het vermogen van Gemini 3 en GPT-5.2 om door complexe juridische en financiële bestanden te navigeren een belangrijke mijlpaal in de mogelijkheden van AI. Aan de andere kant suggereren de lage absolute succespercentages dat AI momenteel beter geschikt is als een geavanceerde assistent dan als een volledige vervanging voor menselijke analisten. De "broosheid" van agents — hun neiging om te falen bij onverwacht softwaregedrag of dubbelzinnige instructies — blijft de belangrijkste hindernis voor grootschalige adoptie.

Voor bedrijven in investment banking en de advocatuur biedt de benchmark een kader voor "Build vs. Buy"-beslissingen. Het suggereert dat hoewel modellen voor algemene doeleinden capabeler worden, de kloof tussen algemeen redeneren en domeinspecifieke uitvoering nog steeds groot is. Organisaties moeten mogelijk zwaar investeren in gespecialiseerde "wrappers" of fine-tuning om deze modellen op het niveau van 90% of 95% nauwkeurigheid te krijgen dat vereist is voor autonoom klantgericht werk.

Toekomstige richtingen: het pad naar 100%

Vooruitkijkend geven de onderzoekers aan dat de volgende grens voor APEX-Agents het uitbreiden van de diversiteit aan professionele tools zal zijn en het verder vergroten van de lengte van de taken. Naarmate AI-bedrijven modellen uitbrengen met nog grotere contextvensters en complexere interne redeneerketens, zal de benchmark dienen als een voortdurende "stresstest" voor de industrie. Het doel is om het succespercentage te verplaatsen van de huidige 24,0% naar een betrouwbaarheidsniveau dat overeenkomt met menselijke prestaties.

Uiteindelijk stelt APEX-Agents een nieuwe basislijn vast voor wat het betekent voor een AI om "productief" te zijn. Het verplaatst het gesprek voorbij de nieuwigheid van een chat-interface naar de praktische aspecten van professionele arbeid. Naarmate autonome agents zich blijven ontwikkelen, zullen de meetgegevens van Vidgen, Mann en Fennelly waarschijnlijk een cruciale maatstaf blijven voor het meten van de overgang van AI die praat naar AI die werkt.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Wat is de APEX-Agents benchmark?
A De APEX-Agents benchmark, of AI Productivity Index for Agents, evalueert de prestaties van AI-agenten op complexe, langdurige, applicatieoverschrijdende taken in de zakelijke dienstverlening zoals investeringsbankieren, managementconsultancy en ondernemingsrecht.[1][2] Het bevat 480 taken verspreid over 33 gesimuleerde 'werelden' met diverse bestanden en tools (bijv. Agenda, Mail, Spreadsheets), waarbij Pass@1 wordt gebruikt als de primaire graadmeter voor succes bij een enkele uitvoering op basis van expertcriteria.[1] Ontwikkeld door Mercor, belicht het tekortkomingen in de consistentie en bekwaamheid van agenten in vergelijking met menselijke professionals.[2][3]
Q Hoe verhoudt GPT-5 zich tot Gemini 3 wat betreft professioneel redeneren?
A Gemini 3 Pro presteert beter dan GPT-5 op benchmarks voor professioneel redeneren zoals GPQA Diamond (91,9% tegenover de 85,7% van GPT-5 met 'thinking'), wat het de leider maakt in puur redeneren en wetenschappelijke taken.[1][2] GPT-5 blijft concurrerend, met name bij het gebruik van tools (89,4%) en adaptief redeneren, maar loopt achter bij nieuwe, complexe problemen zoals Humanity's Last Exam, waar Gemini 3 37,5% scoort.[1] Latere modellen zoals GPT-5.2 doen het met 92,4% op GPQA Diamond iets beter dan Gemini 3 Pro, hoewel de vraag zich richt op GPT-5.[4]
Q Kunnen AI-agenten langdurige applicatieoverschrijdende taken uitvoeren?
A Ja, AI-agenten kunnen langdurige applicatieoverschrijdende taken uitvoeren, zoals aangetoond door frameworks als MUSE, die 'state-of-the-art' prestaties levert op de TAC-benchmark met taken van meer dan 40-100 actiestappen over meerdere applicaties met behulp van een lichtgewicht Gemini-2.5 Flash-model.[1] Benchmarks zoals APEX-Agents evalueren AI-agenten specifiek op langdurige, applicatieoverschrijdende taken in de zakelijke dienstverlening,[8] terwijl SWE-Bench Pro de capaciteiten test in complexe software-engineering-scenario's die redeneren over meerdere bestanden vereisen.[3] Voortdurende vorderingen, waaronder exponentiële verbeteringen in de voltooiing van de taaklengte (een verdubbeling elke 7 maanden), wijzen op een groeiende vaardigheid, hoewel er nog aanzienlijke gaten zijn in de betrouwbaarheid in de echte wereld.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!